Oto najnowszy Digest Ritual Research, newsletter obejmujący najnowsze wydarzenia w świecie LLM-ów oraz na styku Crypto x AI. Z setkami publikacji co tydzień, niemożliwe jest nadążanie za nowinkami. My przeczytamy, abyś ty nie musiał.
Rubryki jako Nagrody: Uczenie się przez Wzmocnienie poza Weryfikowalnymi Obszarami W tym artykule wprowadzają Rubryki jako Nagrody (RaR), metodę RL, która wykorzystuje rubryki listowe do nadzorowania zadań, które mają wiele kryteriów.
To umożliwia stabilne szkolenie i poprawioną wydajność zarówno w dziedzinie rozumowania, jak i w rzeczywistych zastosowaniach. Pokazują, że gdy jest stosowane w dziedzinach medycyny i nauki, ten styl nagród pomaga osiągnąć lepsze dostosowanie do ludzi.
Listy kontrolne są lepsze niż modele nagród do dostosowywania modeli językowych W tym artykule wprowadzają Uczenie przez Wzmocnienie z Informacjami zwrotnymi z Listy Kontrolnej (RLCF), aby wydobyć dynamiczne listy kontrolne z instrukcji do oceny na elastycznych listach różnych kryteriów.
Wprowadzają zbiór danych, WildChecklists, składający się z 130 000 instrukcji i list kontrolnych (syntetycznie generowanych). Ich metoda redukuje problem oceniania odpowiedzi do odpowiadania na konkretne pytania tak/nie, na które odpowiada sędzia AI lub poprzez uruchomienie programu weryfikacyjnego.
Niewidzialna smycz: Dlaczego RLVR może nie uciec od swojego pochodzenia Niniejszy artykuł stara się dostarczyć teoretycznego ramy dla pytania: „Czy RLVR rozszerza zdolności rozumowania, czy tylko wzmacnia to, co modele już wiedzą?”
Oni stwierdzają, że RLVR: nie pomaga modelowi w odkrywaniu zupełnie nowych możliwości. Poprawia pass@1, tzn. pozwala na lepsze odpowiedzi w mniejszej liczbie prób. Redukuje różnorodność odpowiedzi. Podsumowując, RLVR poprawia precyzję, ale często nie udaje mu się odkryć nowych ścieżek rozumowania.
Poza nagrodami binarnymi: Szkolenie LM do rozumienia swojej niepewności Niniejszy artykuł wprowadza RLCR (Uczenie przez Wzmocnienie z Nagrodami Kalibracyjnymi), prostą metodę, która szkoli LLM do rozumienia i refleksji nad własną niepewnością.
Obecne metody RL nagradzają tylko poprawność, ignorując pewność LLM w swoim rozwiązaniu, co zachęca do zgadywania. Artykuł projektuje skalibrowaną nagrodę, która jest skuteczna w benchmarkach QA i matematycznych. Odkrywają również, że ten wskaźnik pewności nie wpływa na dokładność.
Skalowanie odwrotne w obliczeniach w czasie testu Niniejszy artykuł konstruuje zadania, w których wykorzystanie większej mocy obliczeniowej w czasie testu, tj. dłuższe długości rozumowania w LRM, skutkuje gorszą wydajnością, wykazując odwrotną zależność między większą skalą a dokładnością.
Śledź nas @ritualdigest, aby uzyskać więcej informacji na temat wszystkiego, co związane z badaniami Crypto x AI, oraz @ritualnet, aby dowiedzieć się więcej o tym, co buduje Ritual.
3,64K