Tässä on tämän viikon Ritual Research Digest, uutiskirje, joka kattaa viimeisimmät tiedot LLM:ien maailmasta ja Crypto x AI:n risteyskohdasta. Viikoittain julkaistaan satoja lehtiä, joten on mahdotonta pysyä ajan tasalla uusimmasta uutisesta. Me teemme lukemisen, jotta sinun ei tarvitse.
Kaikki bitit eivät ole samanarvoisia: Asteikosta riippuvaiset muistin optimointistrategiat päättelymalleille Kirjoittajat tutkivat päättelymallien muistin pakkauksen periaatteita. He ottavat huomioon mallin koon, tarkkuuden, genin pituuden ja KV-välimuistin pakkaamisen.
He kysyvät: Mikä on tekijöiden tasapaino kiinteällä muistibudjetilla päättelytehtävien tarkkuuden maksimoimiseksi? Yli 1700 koetta Qwen3-perheellä AIME:llä ja GPQA-Diamondilla. He huomaavat, että universaalia strategiaa ei ole olemassa, mutta heillä on kokokohtaiset suositukset.
Vahvistuksen oppimisen laskennan skaalaamisen taito LLM:ille Tämä työ tutkii RL-skaalauksen tiedettä ja kehittää ScaleRL:ää, reseptiä, joka skaalautuu ennustettavasti laskennan avulla. Suunnittelu perustuu empiiriseen tutkimukseen RL-skaalauksesta yli 400 000 GPU-tunnilla.
He löytävät kolme keskeistä periaatetta: • RL-suorituskykykatot eivät ole yleisiä • Katkera opetus pätee myös RL:ään • Yleiset interventiot, joiden uskotaan parantavan huippusuorituskykyä, säätävät pääasiassa laskentatehokkuutta, mutta eivät muuta suorituskyvyn kattoa merkittävästi.
LLM:t voivat saada "aivomädäntymisen"! Tässä artikkelissa tutkitaan, voivatko LLM:t saada aivomädäntymisen, eli jos ne on koulutettu roskaverkkotekstiin, onko sillä pysyvää kognitiivista heikkenemistä LLM:issä? He kokeilevat rakentamalla tietojoukkoja sosiaalisesta mediasta (Twitter/X) kahden roskamittarin avulla.
Puhtaiden ja roskatietojoukkojen vertaileva vertailu osoittaa, että roskainterventio liittyy päättelyn, pitkän kontekstin ja eettisten normien kognitiiviseen heikkenemiseen. LLM:ien pimeät persoonallisuudet nousevat esiin M1:n roskaväliintulon myötä, mikä aiheuttaa merkittäviä turvallisuusongelmia.
Älä heitä pois esikoulutettua malliasi Alignment/RL:stä on tullut olennainen osa LLM-koulutusta, mutta sillä on useita haittoja, joissa esikoulutetut perusmallit ovat erinomaisia. Tässä artikkelissa tarkastellaan, miten molempien maailmojen edut voidaan hyödyntää ja kehittää mukautuvia tekoälyjärjestelmiä.
He ehdottavat Switch Generationia, jossa useita mallin tarkistuspisteitä valitaan dynaamisesti sukupolvea varten. Kokeet, joissa on 8 yhteistyön perustasoa ja 18 tietojoukkoa, osoittavat, että malliyhteistyön lähestymistavat ylittävät kaikki yksittäiset mallit 16:ssa 18:sta.
Kuinka vahvistusoppiminen seuraavan tokenin ennustamisen jälkeen helpottaa oppimista Artikkelissa tutkitaan, kuinka autoregressiiviset mallit onnistuvat haastavissa ennustetehtävissä noudattamalla tätä koulutusreseptiä (seuraavan tokenin ennuste ja vahvistusoppiminen).
Kokeita varten he olettavat, että koulutusta edeltävät tiedot sisältävät harvinaisia demonstraatioita kiinnostavasta tehtävästä. Tämän perusteella he selittävät: - Yleistämisvaikeudet harjoittelua edeltävän koulutuksen aikana - Miten RL johtaa nopeaan paranemiseen - Mikä johtaa pidempiin vastauksiin?
Seuraa meitä @ritualdigest saadaksesi lisätietoja kaikesta krypto x AI -tutkimuksesta ja @ritualnet oppia lisää siitä, mitä Ritual rakentaa.
576