Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oto najnowszy Digest Ritual Research, newsletter obejmujący najnowsze wydarzenia w świecie LLM-ów oraz na styku Crypto x AI.
Z setkami publikacji co tydzień, niemożliwe jest nadążanie za nowinkami. My czytamy, abyś nie musiał.

Nie wszystkie bity są równe: strategie optymalizacji pamięci zależne od skali dla modeli rozumowania
Autorzy badają zasady kompresji pamięci dla modeli rozumowania. Rozważają rozmiar modelu, precyzję, długość generacji oraz kompresję pamięci KV.

Pytają: Przy stałym budżecie pamięci, jaki jest balans czynników, aby zmaksymalizować dokładność w zadaniach rozumowania?
Ponad 1700 eksperymentów na rodzinie Qwen3 w AIME i GPQA-Diamond. Odkrywają, że nie ma uniwersalnej strategii, ale mają zalecenia specyficzne dla rozmiaru.

Sztuka skalowania obliczeń uczenia przez wzmocnienie dla LLM-ów
Ta praca bada naukę skalowania RL i opracowuje ScaleRL, przepis, który przewidywalnie skaluje się z obliczeniami. Projekt oparty jest na badaniach empirycznych dotyczących skalowania RL przez 400 000 godzin GPU.

Odnajdują trzy kluczowe zasady:
• Ograniczenia wydajności RL nie są uniwersalne
• Gorzką lekcję można zastosować również do RL
• Powszechne interwencje, które mają na celu poprawę szczytowej wydajności, głównie dostosowują efektywność obliczeniową, nie zmieniając znacząco ograniczenia wydajności.

LLM-y mogą dostać "zgnilizny mózgowej"!
Niniejszy artykuł bada, czy LLM-y mogą doświadczyć zgnilizny mózgowej, tzn. czy trenowane na śmieciowych tekstach z sieci mają trwały spadek zdolności poznawczych?
Eksperymentują, konstruując zbiory danych z mediów społecznościowych (Twitter/X) za pomocą dwóch wskaźników śmieciowych.

Porównawcze badania między czystymi a śmieciowymi zestawami danych pokazują, że interwencja śmieciowa jest związana z pogorszeniem zdolności poznawczych w zakresie rozumowania, długiego kontekstu i norm etycznych.
Ciemne osobowości LLM-ów pojawiają się przy interwencji M1 śmieciowej, budząc poważne obawy dotyczące bezpieczeństwa.


Nie wyrzucaj swojego wstępnie wytrenowanego modelu
Dostosowanie/RL stało się integralną częścią treningu LLM, ale ma kilka wad, w których wstępnie wytrenowane modele bazowe radzą sobie doskonale. Niniejszy artykuł bada, jak wykorzystać zalety obu światów i opracować elastyczne systemy AI.

Proponują Switch Generation, w którym dynamicznie wybierane są różne punkty kontrolne modeli do generacji.
Eksperymenty z 8 bazami współpracy i 18 zestawami danych pokazują, że podejścia do współpracy modeli przewyższają wszystkie modele indywidualne w 16 na 18 zestawów danych.


Jak uczenie przez wzmocnienie po przewidywaniu następnego tokena ułatwia naukę
Artykuł bada, jak modele autoregresywne odnoszą sukcesy w trudnych zadaniach przewidywania, stosując ten przepis na trening (przewidywanie następnego tokena, a następnie uczenie przez wzmocnienie).

W eksperymentach zakładają, że dane do wstępnego szkolenia zawierają rzadkie demonstracje dla interesującego zadania.
Na tej podstawie wyjaśniają:
- Trudności w generalizacji podczas wstępnego szkolenia
- Jak RL prowadzi do szybkiej poprawy
- Co prowadzi do dłuższych odpowiedzi?

Śledź nas @ritualdigest, aby uzyskać więcej informacji na temat wszystkiego, co związane z kryptowalutami i badaniami AI, oraz @ritualnet, aby dowiedzieć się więcej o tym, co buduje Ritual.
464
Najlepsze
Ranking
Ulubione