Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Mietin, mitä tapahtuisi, jos toistaisit METR AI -kohotustutkimuksen, mutta arkipäiväisempiä työkaluja.
Suorita esimerkiksi tämä pull-pyyntö, mutta Internet-yhteyttä ei sallita.
Ei olisi yllättynyt, jos tuottavuus paranisi (aivan kuten ilman LLM:iä)
Jos näin on, ehkä tutkimus kertoo enemmän siitä, kuinka helppoa on häiritä itseäsi (ja kuinka niin kauan kuin sinulla on jokin muu vaihtoehto, kieltäydyt omistamasta kognitiivista ponnistelua ongelman ytimeen) kuin LLM-koodausavustajista erityisesti.

METR11.7.2025
Suoritimme satunnaistetun kontrolloidun kokeen nähdäksemme, kuinka paljon tekoälyn koodaustyökalut nopeuttavat kokeneita avoimen lähdekoodin kehittäjiä.
Tulokset yllättivät meidät: Kehittäjät luulivat olevansa 20 % nopeampia tekoälytyökalujen kanssa, mutta todellisuudessa he olivat 19 % hitaampia tekoälyn kanssa kuin silloin, kun heillä ei ollut.

38,46K
@tobyordoxford postauksesta.
Onko olemassa hyvää julkista näyttöä siitä, kuinka laajat taidot, joita LLM:n opiskelijat oppivat RL:ltä?
Mikä on esimerkiksi vakuuttavin esimerkki RL:n siirto-oppimisesta? Missä koulutus tietyssä ympäristössä johtaa parempiin valmiuksiin joillakin melko erilaisilla aloilla?
Tiedän, että ilmeinen vastaus tähän voisi olla vain osoittaa GPT 5:tä. Vaikka se on paljon parempi yleisessä ajattelussa kuin GPT 4o, se johtuu todennäköisesti RL:stä.


Dwarkesh Patel20.9. klo 01.44
Mielenkiintoinen postaus. Bitit/FLOP RL:stä ovat 3-6 OOM:ia pienemmät kuin ennen harjoittelua.
Vaikka @tamaybes huomautti, että RL:n bitit voivat kohdistua tiettyihin taitoihin, joita haluat oppia. Kun taas esikoulutus vain jakaa nämä bitit satunnaisten ASCII-suhteiden ja miljoonan muun epäolennaisen asian oppimiseen.
Lisäksi jokaisessa tehtävässä on paljon päätöksiä, joiden erityisellä toteutuksella ei ole suurta merkitystä, ja pari, jotka todella haluat naulata. RL voi keskittää signaalin oppimaan, kuinka olla sotkematta jakson kriittisiä tiloja, sen sijaan, että jokainen merkki olisi oikein. Hyödyllinen kuva eräältä @svlevine vanhalta luennolta (B on kriittinen tila):
Luulen, että tämä viittaa edelleen siihen, että RL on paljon vähemmän tietotiheää kuin esikoulutus. Ja olen samaa mieltä Tobyn kanssa siitä, että älykkyyden lisäys RL env -koulutuksen FLOPia kohden on pienempi kuin monet olettavat.
Työstän tätä käsittelevää postausta @EgeErdil2, @MatthewJBar ja @tamaybes. Toivottavasti voimme julkaista ensi viikolla.


51,73K
Johtavat
Rankkaus
Suosikit