Tässä on tämän viikon Ritual Research Digest, uutiskirje, joka kattaa viimeisimmät tiedot LLM:ien maailmasta ja Crypto x AI:n risteyskohdasta. Viikoittain julkaistaan satoja lehtiä, joten on mahdotonta pysyä ajan tasalla uusimmasta uutisesta. Me teemme lukemisen, jotta sinun ei tarvitse.
Tämä artikkeli kysyy: Mitä tarkistaa? Kuinka tarkistaa? Ja miksi ylipäätään vahvistaa? He havaitsivat, että todentamisen arvo riippuu siitä, ettei käytössä ole liian jäykkää täytäntöönpanoa, joka hylkää järkevät ratkaisut, kun taas todentamisen huomiotta jättäminen kokonaan sallii heikkolaatuisen datan hallitsemisen.
Variaatio todentamisessa: Vahvistusdynamiikan ymmärtäminen suurissa kielimalleissa Artikkelissa tarkastellaan todentamisen onnistumiseen vaikuttavia tekijöitä - ongelman vaikeus - generaattoreiden tuotantokyky - todentajien tuotantokyky.
He toteavat, että: - Todentajat tunnistavat todennäköisemmin oikeat ratkaisut helppoihin ongelmiin - Heikkojen generaattoreiden tekemät virheet on helpompi havaita kuin vahvojen generaattoreiden tekemät virheet - Verifierin generointikyky korreloi suorituskyvyn kanssa ongelmatilanteessa.
Vahvistusoppiminen koulutusta edeltävällä tiedolla Artikkelissa ehdotetaan RLPT:tä, joka skaalaa RL:ää koulutusta edeltävien tietojen perusteella. He ehdottavat seuraavan segmentin päättelytavoitetta, joka palkitsee LLM:t seuraavan segmentin ennustamisesta oikein edellisessä kontekstissa.
Laajat kokeet yleisellä ja matemaattisella päättelyllä osoittavat, että RLPT parantaa suorituskykyä merkittävästi ja osoittaa suotuisaa skaalaustrendiä, ja osoittavat lisäksi, että RLPT tarjoaa vahvan perustan myöhemmälle RLVR:lle.
ARE: Agenttiympäristöjen ja arviointien skaalaaminen Tässä artikkelissa ehdotetaan Meta Agents Research Environments (ARE) -alustaa, joka tukee orkestrointia, ympäristöjen luomista ja sovellusten yhdistämistä agenttien kehittämistä ja arviointia varten.
Artikkelissa esitellään myös Gaia2, joka on agenttien arviointi. Gaia2 koostuu 1 120 todennettavissa olevasta, kommentoidusta skenaariosta, jotka tapahtuvat mobiiliympäristössä ja jäljittelevät älypuhelinta sovelluksilla, kuten sähköpostilla, viesteillä ja kalenterilla. He huomaavat, että gpt-5 high toimii parhaiten.
Seuraa meitä @ritualdigest saadaksesi lisätietoja kaikesta krypto x AI -tutkimuksesta ja @ritualnet oppia lisää siitä, mitä Ritual rakentaa.
7,21K