Här är veckans Ritual Research Digest, ett nyhetsbrev som täcker det senaste i LLM-världen och skärningspunkten mellan Crypto x AI. Med hundratals artiklar som publiceras varje vecka är det omöjligt att hålla sig uppdaterad med det senaste. Vi gör avläsningen så att du inte behöver göra det.
I det här dokumentet ställs frågan: Vad ska verifieras? Hur verifierar man? Och varför verifiera överhuvudtaget? De finner att verifieringens värde beror på att man inte har en alltför stelbent tillämpning som förkastar rimliga lösningar, samtidigt som man genom att ignorera verifiering helt och hållet gör det möjligt för data av låg kvalitet att dominera.
Variation i verifiering: Förstå verifieringsdynamik i stora språkmodeller I artikeln studeras faktorer som påverkar verifieringsframgången tillsammans med - Svårighetsgrad - Genereringskapacitet för generatorer - Kontrollörernas produktionskapacitet.
De kommer fram till att: - Kontrollörer är mer benägna att hitta korrekta lösningar på enkla problem. - Fel som görs av svaga generatorer är lättare att upptäcka än de som görs av starka generatorer - Verifierarens genereringsförmåga korrelerar med prestanda i en problemsvårighet.
Förstärkningsinlärning på data före träning Dokumentet föreslår RLPT, som skalar RL på data före träning. De föreslår ett resonemangsmål för nästa segment som belönar LLM:er för att förutsäga nästa segment korrekt med tanke på det föregående sammanhanget.
Omfattande experiment på allmänna och matematiska resonemang visar att RLPT avsevärt förbättrar prestanda och uppvisar en gynnsam skalningstrend, och visar vidare att RLPT ger en stark grund för efterföljande RLVR.
ARE: Skala upp agentmiljöer och utvärderingar I det här dokumentet föreslås Meta Agents Research Environments (ARE), en plattform som stöder orkestrering, skapande av miljöer och anslutning av appar för agentutveckling och utvärdering.
Dokumentet introducerar också Gaia2, en utvärdering för agenter. Gaia2 består av 1 120 verifierbara, kommenterade scenarier som äger rum i en mobil miljö och efterliknar en smartphone med appar som e-post, meddelanden och kalender. De finner att gpt-5 hög presterar bäst.
Följ oss @ritualdigest för mer information om allt som rör forskning om krypto x AI, och @ritualnet för att lära dig mer om vad Ritual bygger.
7,21K