Her er denne ukens Ritual Research Digest, et nyhetsbrev som dekker det siste i verden av LLM-er og skjæringspunktet mellom Crypto x AI. Med hundrevis av artikler utgitt ukentlig, er det umulig å holde seg oppdatert med det siste. Vi leser slik at du ikke trenger å gjøre det.
Denne artikkelen spør: Hva skal verifiseres? Hvordan verifisere? Og hvorfor verifisere i det hele tatt? De finner at verifiseringens verdi avhenger av å ikke ha altfor rigid håndhevelse som forkaster rimelige løsninger, mens å ignorere verifisering helt lar data av lav kvalitet dominere.
Variasjon i verifisering: Forstå verifiseringsdynamikk i store språkmodeller Artikkelen studerer faktorer som påvirker verifiseringssuksess sammen med - vanskelighetsgrad - genereringsevne for generatorer - genereringskapasitet for verifikatorer.
De finner at: - Det er mer sannsynlig at verifikatorer gjenkjenner riktige løsninger på enkle problemer - Feil gjort av svake generatorer er lettere å oppdage enn de som gjøres av sterke generatorer - Verifikatorens genereringsevne korrelerer med ytelse i en problemvanskelighet.
Forsterkende læring på data før trening Artikkelen foreslår RLPT, som skalerer RL på data før trening. De foreslår et resonnementmål for neste segment som belønner LLM-er for å forutsi neste segment riktig gitt den foregående konteksten.
Omfattende eksperimenter med generell domene og matematisk resonnement viser at RLPT forbedrer ytelsen betydelig og viser en gunstig skaleringstrend, og viser videre at RLPT gir et sterkt grunnlag for påfølgende RLVR.
ARE: Oppskalering av agentmiljøer og evalueringer Denne artikkelen foreslår Meta Agents Research Environments (ARE), en plattform som støtter orkestreringer, oppretting av miljøer og tilkobling av apper for agentutvikling og evaluering.
Artikkelen introduserer også Gaia2, en evaluering for agenter. Gaia2 er sammensatt av 1,120 verifiserbare, kommenterte scenarier som finner sted i et mobilmiljø, og etterligner en smarttelefon med apper som e-post, meldinger og kalender. De finner at gpt-5 høy presterer best.
Følg oss @ritualdigest for mer om alt som har med krypto x AI-forskning å gjøre, og @ritualnet lære mer om hva Ritual bygger.
7,21K