DApp Store | Centrum Web3 pro události a hry

Populární témata

Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI. Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Čteme my, takže vy nemusíte.

Tento článek se ptá: Co ověřit? Jak ověřit? A proč vůbec ověřovat? Zjistili, že hodnota verifikace závisí na tom, zda neexistuje příliš rigidní vynucování, které by zavrhovalo rozumná řešení, zatímco úplné ignorování ověřování umožňuje dominovat nekvalitním datům.

Variace v ověřování: Pochopení dynamiky ověřování ve velkých jazykových modelech Článek studuje faktory ovlivňující úspěšnost verifikace v průběhu - obtížnost problému - schopnost výroby generátorů - schopnost generování verifikátorů.

Zjistili, že: - Ověřovatelé s větší pravděpodobností rozpoznají správná řešení jednoduchých problémů - Chyby způsobené slabými generátory se odhalují snadněji než chyby silných generátorů - Schopnost generování ověřovače koreluje s výkonem v obtížném problému.

Zpětnovazební učení na předtréninkových datech Článek navrhuje RLPT, který škáluje RL na předtrénovacích datech. Navrhují cíl uvažování o dalším segmentu, který odměňuje LLM za správné předvídání dalšího segmentu vzhledem k předchozímu kontextu.

Rozsáhlé experimenty s obecným a matematickým uvažováním ukazují, že RLPT podstatně zlepšuje výkon a vykazuje příznivý trend škálování, a dále ukazují, že RLPT poskytuje silný základ pro následné RLVR.

ARE: Škálování prostředí agentů a jejich vyhodnocení Tento článek navrhuje Meta Agents Research Environments (ARE), platformu, která podporuje orchestrace, vytváření prostředí a propojování aplikací pro vývoj a vyhodnocování agentů.

Článek také představuje Gaia2, hodnocení agentů. Gaia2 se skládá z 1 120 ověřitelných anotovaných scénářů, které se odehrávají v mobilním prostředí a napodobují smartphone s aplikacemi, jako je e-mail, zasílání zpráv a kalendář. Zjistili, že gpt-5 high funguje nejlépe.

Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu crypto x AI, a @ritualnet se dozvědět více o tom, co Ritual buduje.

8,55K

Top

Hodnocení

Oblíbené