Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI. Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Čteme my, takže vy nemusíte.
Tento článek se ptá: Co ověřit? Jak ověřit? A proč vůbec ověřovat? Zjistili, že hodnota verifikace závisí na tom, zda neexistuje příliš rigidní vynucování, které by zavrhovalo rozumná řešení, zatímco úplné ignorování ověřování umožňuje dominovat nekvalitním datům.
Variace v ověřování: Pochopení dynamiky ověřování ve velkých jazykových modelech Článek studuje faktory ovlivňující úspěšnost verifikace v průběhu - obtížnost problému - schopnost výroby generátorů - schopnost generování verifikátorů.
Zjistili, že: - Ověřovatelé s větší pravděpodobností rozpoznají správná řešení jednoduchých problémů - Chyby způsobené slabými generátory se odhalují snadněji než chyby silných generátorů - Schopnost generování ověřovače koreluje s výkonem v obtížném problému.
Zpětnovazební učení na předtréninkových datech Článek navrhuje RLPT, který škáluje RL na předtrénovacích datech. Navrhují cíl uvažování o dalším segmentu, který odměňuje LLM za správné předvídání dalšího segmentu vzhledem k předchozímu kontextu.
Rozsáhlé experimenty s obecným a matematickým uvažováním ukazují, že RLPT podstatně zlepšuje výkon a vykazuje příznivý trend škálování, a dále ukazují, že RLPT poskytuje silný základ pro následné RLVR.
ARE: Škálování prostředí agentů a jejich vyhodnocení Tento článek navrhuje Meta Agents Research Environments (ARE), platformu, která podporuje orchestrace, vytváření prostředí a propojování aplikací pro vývoj a vyhodnocování agentů.
Článek také představuje Gaia2, hodnocení agentů. Gaia2 se skládá z 1 120 ověřitelných anotovaných scénářů, které se odehrávají v mobilním prostředí a napodobují smartphone s aplikacemi, jako je e-mail, zasílání zpráv a kalendář. Zjistili, že gpt-5 high funguje nejlépe.
Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu crypto x AI, a @ritualnet se dozvědět více o tom, co Ritual buduje.
8,55K