Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oto najnowszy Digest Ritual Research, newsletter obejmujący najnowsze wydarzenia w świecie LLM-ów oraz na styku Crypto x AI.
Z setkami publikacji co tydzień, niemożliwe jest nadążanie za nowinkami. My czytamy, abyś nie musiał.

Niniejszy dokument zadaje pytania: Co weryfikować? Jak weryfikować? I dlaczego w ogóle weryfikować?
Oni stwierdzają, że wartość weryfikacji zależy od braku zbyt sztywnego egzekwowania, które odrzuca rozsądne rozwiązania, podczas gdy całkowite ignorowanie weryfikacji pozwala na dominację danych niskiej jakości.
Wariacje w Weryfikacji: Zrozumienie Dynamiki Weryfikacji w Dużych Modelach Językowych
Artykuł bada czynniki wpływające na sukces weryfikacji wzdłuż
- trudności problemu
- zdolności generacyjnej generatorów
- zdolności generacyjnej weryfikatorów.

Oni stwierdzają, że:
- Weryfikatorzy są bardziej skłonni do rozpoznawania poprawnych rozwiązań w łatwych problemach
- Błędy popełniane przez słabe generatory są łatwiejsze do wykrycia niż te popełniane przez silne generatory
- Zdolność generacyjna weryfikatora koreluje z wydajnością w trudności problemu.
Uczenie przez wzmocnienie na danych wstępnych
Artykuł proponuje RLPT, które skaluje RL na danych wstępnych. Proponują cel rozumienia następnego segmentu, który nagradza LLM-y za poprawne przewidywanie następnego segmentu w kontekście poprzedzającym.

Rozległe eksperymenty w zakresie ogólnych dziedzin i rozumowania matematycznego pokazują, że RLPT znacznie poprawia wyniki i wykazuje korzystny trend skalowania, a także dodatkowo demonstrują, że RLPT stanowi solidną podstawę dla kolejnego RLVR.

ARE: Skalowanie środowisk agentów i ocen
Niniejszy dokument proponuje Meta Agents Research Environments (ARE), platformę, która wspiera orkiestracje, tworzenie środowisk oraz łączenie aplikacji do rozwoju i oceny agentów.

Artykuł wprowadza również Gaia2, ocenę dla agentów. Gaia2 składa się z 1 120 weryfikowalnych, adnotowanych scenariuszy, które mają miejsce w środowisku mobilnym, naśladując smartfona z aplikacjami takimi jak e-mail, wiadomości i kalendarz. Odkrywają, że gpt-5 osiąga najlepsze wyniki.

Śledź nas @ritualdigest, aby uzyskać więcej informacji na temat wszystkiego, co związane z kryptowalutami i badaniami AI, oraz @ritualnet, aby dowiedzieć się więcej o tym, co buduje Ritual.
7,22K
Najlepsze
Ranking
Ulubione