Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zde je tento týden Ritual Research Digest, zpravodaj pokrývající nejnovější ve světě LLM a průnik Crypto x AI.
Se stovkami novin publikovaných týdně je nemožné mít přehled o těch nejnovějších. Čteme my, takže vy nemusíte.

Tento článek se ptá: Co ověřit? Jak ověřit? A proč vůbec ověřovat?
Zjistili, že hodnota verifikace závisí na tom, zda neexistuje příliš rigidní vynucování, které by zavrhovalo rozumná řešení, zatímco úplné ignorování ověřování umožňuje dominovat nekvalitním datům.
Variace v ověřování: Pochopení dynamiky ověřování ve velkých jazykových modelech
Článek studuje faktory ovlivňující úspěšnost verifikace v průběhu
- obtížnost problému
- schopnost výroby generátorů
- schopnost generování verifikátorů.

Zjistili, že:
- Ověřovatelé s větší pravděpodobností rozpoznají správná řešení jednoduchých problémů
- Chyby způsobené slabými generátory se odhalují snadněji než chyby silných generátorů
- Schopnost generování ověřovače koreluje s výkonem v obtížném problému.
Zpětnovazební učení na předtréninkových datech
Článek navrhuje RLPT, který škáluje RL na předtrénovacích datech. Navrhují cíl uvažování o dalším segmentu, který odměňuje LLM za správné předvídání dalšího segmentu vzhledem k předchozímu kontextu.

Rozsáhlé experimenty s obecným a matematickým uvažováním ukazují, že RLPT podstatně zlepšuje výkon a vykazuje příznivý trend škálování, a dále ukazují, že RLPT poskytuje silný základ pro následné RLVR.

ARE: Škálování prostředí agentů a jejich vyhodnocení
Tento článek navrhuje Meta Agents Research Environments (ARE), platformu, která podporuje orchestrace, vytváření prostředí a propojování aplikací pro vývoj a vyhodnocování agentů.

Článek také představuje Gaia2, hodnocení agentů. Gaia2 se skládá z 1 120 ověřitelných anotovaných scénářů, které se odehrávají v mobilním prostředí a napodobují smartphone s aplikacemi, jako je e-mail, zasílání zpráv a kalendář. Zjistili, že gpt-5 high funguje nejlépe.

Sledujte nás @ritualdigest pro více informací o všem, co se týká výzkumu crypto x AI, a
@ritualnet se dozvědět více o tom, co Ritual buduje.
8,55K
Top
Hodnocení
Oblíbené