Oto najnowszy Digest Ritual Research, newsletter obejmujący najnowsze wydarzenia w świecie LLM-ów oraz na styku Crypto x AI. Z setkami publikacji co tydzień, niemożliwe jest nadążanie za nowinkami. My czytamy, abyś nie musiał.
Niniejszy dokument zadaje pytania: Co weryfikować? Jak weryfikować? I dlaczego w ogóle weryfikować? Oni stwierdzają, że wartość weryfikacji zależy od braku zbyt sztywnego egzekwowania, które odrzuca rozsądne rozwiązania, podczas gdy całkowite ignorowanie weryfikacji pozwala na dominację danych niskiej jakości.
Wariacje w Weryfikacji: Zrozumienie Dynamiki Weryfikacji w Dużych Modelach Językowych Artykuł bada czynniki wpływające na sukces weryfikacji wzdłuż - trudności problemu - zdolności generacyjnej generatorów - zdolności generacyjnej weryfikatorów.
Oni stwierdzają, że: - Weryfikatorzy są bardziej skłonni do rozpoznawania poprawnych rozwiązań w łatwych problemach - Błędy popełniane przez słabe generatory są łatwiejsze do wykrycia niż te popełniane przez silne generatory - Zdolność generacyjna weryfikatora koreluje z wydajnością w trudności problemu.
Uczenie przez wzmocnienie na danych wstępnych Artykuł proponuje RLPT, które skaluje RL na danych wstępnych. Proponują cel rozumienia następnego segmentu, który nagradza LLM-y za poprawne przewidywanie następnego segmentu w kontekście poprzedzającym.
Rozległe eksperymenty w zakresie ogólnych dziedzin i rozumowania matematycznego pokazują, że RLPT znacznie poprawia wyniki i wykazuje korzystny trend skalowania, a także dodatkowo demonstrują, że RLPT stanowi solidną podstawę dla kolejnego RLVR.
ARE: Skalowanie środowisk agentów i ocen Niniejszy dokument proponuje Meta Agents Research Environments (ARE), platformę, która wspiera orkiestracje, tworzenie środowisk oraz łączenie aplikacji do rozwoju i oceny agentów.
Artykuł wprowadza również Gaia2, ocenę dla agentów. Gaia2 składa się z 1 120 weryfikowalnych, adnotowanych scenariuszy, które mają miejsce w środowisku mobilnym, naśladując smartfona z aplikacjami takimi jak e-mail, wiadomości i kalendarz. Odkrywają, że gpt-5 osiąga najlepsze wyniki.
Śledź nas @ritualdigest, aby uzyskać więcej informacji na temat wszystkiego, co związane z kryptowalutami i badaniami AI, oraz @ritualnet, aby dowiedzieć się więcej o tym, co buduje Ritual.
7,22K