Oto najnowszy Digest Ritual Research, newsletter obejmujący najnowsze wydarzenia w świecie LLM-ów oraz na styku Crypto x AI. Z setkami publikacji co tydzień, niemożliwe jest nadążanie za nowinkami. My czytamy, abyś nie musiał.
Nie wszystkie bity są równe: strategie optymalizacji pamięci zależne od skali dla modeli rozumowania Autorzy badają zasady kompresji pamięci dla modeli rozumowania. Rozważają rozmiar modelu, precyzję, długość generacji oraz kompresję pamięci KV.
Pytają: Przy stałym budżecie pamięci, jaki jest balans czynników, aby zmaksymalizować dokładność w zadaniach rozumowania? Ponad 1700 eksperymentów na rodzinie Qwen3 w AIME i GPQA-Diamond. Odkrywają, że nie ma uniwersalnej strategii, ale mają zalecenia specyficzne dla rozmiaru.
Sztuka skalowania obliczeń uczenia przez wzmocnienie dla LLM-ów Ta praca bada naukę skalowania RL i opracowuje ScaleRL, przepis, który przewidywalnie skaluje się z obliczeniami. Projekt oparty jest na badaniach empirycznych dotyczących skalowania RL przez 400 000 godzin GPU.
Odnajdują trzy kluczowe zasady: • Ograniczenia wydajności RL nie są uniwersalne • Gorzką lekcję można zastosować również do RL • Powszechne interwencje, które mają na celu poprawę szczytowej wydajności, głównie dostosowują efektywność obliczeniową, nie zmieniając znacząco ograniczenia wydajności.
LLM-y mogą dostać "zgnilizny mózgowej"! Niniejszy artykuł bada, czy LLM-y mogą doświadczyć zgnilizny mózgowej, tzn. czy trenowane na śmieciowych tekstach z sieci mają trwały spadek zdolności poznawczych? Eksperymentują, konstruując zbiory danych z mediów społecznościowych (Twitter/X) za pomocą dwóch wskaźników śmieciowych.
Porównawcze badania między czystymi a śmieciowymi zestawami danych pokazują, że interwencja śmieciowa jest związana z pogorszeniem zdolności poznawczych w zakresie rozumowania, długiego kontekstu i norm etycznych. Ciemne osobowości LLM-ów pojawiają się przy interwencji M1 śmieciowej, budząc poważne obawy dotyczące bezpieczeństwa.
Nie wyrzucaj swojego wstępnie wytrenowanego modelu Dostosowanie/RL stało się integralną częścią treningu LLM, ale ma kilka wad, w których wstępnie wytrenowane modele bazowe radzą sobie doskonale. Niniejszy artykuł bada, jak wykorzystać zalety obu światów i opracować elastyczne systemy AI.
Proponują Switch Generation, w którym dynamicznie wybierane są różne punkty kontrolne modeli do generacji. Eksperymenty z 8 bazami współpracy i 18 zestawami danych pokazują, że podejścia do współpracy modeli przewyższają wszystkie modele indywidualne w 16 na 18 zestawów danych.
Jak uczenie przez wzmocnienie po przewidywaniu następnego tokena ułatwia naukę Artykuł bada, jak modele autoregresywne odnoszą sukcesy w trudnych zadaniach przewidywania, stosując ten przepis na trening (przewidywanie następnego tokena, a następnie uczenie przez wzmocnienie).
W eksperymentach zakładają, że dane do wstępnego szkolenia zawierają rzadkie demonstracje dla interesującego zadania. Na tej podstawie wyjaśniają: - Trudności w generalizacji podczas wstępnego szkolenia - Jak RL prowadzi do szybkiej poprawy - Co prowadzi do dłuższych odpowiedzi?
Śledź nas @ritualdigest, aby uzyskać więcej informacji na temat wszystkiego, co związane z kryptowalutami i badaniami AI, oraz @ritualnet, aby dowiedzieć się więcej o tym, co buduje Ritual.
464