Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Jeg lurer på hva som ville skjedd hvis du replikerte METR AI-hevingsstudien, men for mer hverdagslige verktøy.
Fullfør for eksempel denne pull-forespørselen, men ingen Internett-tilgang tillatt.
Ville ikke bli overrasket om produktiviteten ble forbedret (akkurat som den gjorde uten LLM-er)
I så fall sier kanskje studien mer om hvor lett det er å distrahere deg selv (og hvordan så lenge du har noe annet alternativ, vil du nekte å dedikere kognitiv innsats til kjernen av problemet) enn den gjør om LLM-kodeassistenter spesifikt.

METR11. juli 2025
We ran a randomized controlled trial to see how much AI coding tools speed up experienced open-source developers.
The results surprised us: Developers thought they were 20% faster with AI tools, but they were actually 19% slower when they had access to AI than when they didn't.

38,08K
Fra @tobyordoxford innlegg.
Er det gode offentlige bevis på hvor brede ferdighetene som LLM-er lærer av RL er?
Hva er for eksempel det mest overbevisende eksemplet på overføringslæring i RL? Hvor trening i et spesifikt miljø fører til bedre evner i noen ganske forskjellige domener?
Jeg vet at et åpenbart svar her kan være å bare peke på GPT 5. Uansett hvor mye det er bedre på generell tenkning enn GPT 4o, er det sannsynligvis på grunn av RL.


Dwarkesh Patel20. sep., 01:44
Interessant innlegg. Bits/FLOP fra RL er 3-6 OOMs lavere enn pretraining.
Selv om @tamaybes gjorde et poeng av at bitene fra RL kan målrette mot de spesifikke ferdighetene du ønsker å lære. Mens forhåndstrening bare fordeler disse bitene over å lære tilfeldige ASCII-relasjoner og en million andre irrelevante ting.
Videre, for en gitt oppgave, er det mange avgjørelser hvis spesifikke utførelse ikke betyr så mye, og et par du virkelig ønsker å spikre. RL kan konsentrere signalet mot å lære hvordan man ikke roter til de kritiske tilstandene i episoden, i motsetning til å få hvert eneste token riktig. Nyttig bilde fra en av @svlevine gamle forelesninger (B er den kritiske tilstanden):
Jeg tror dette fortsatt fører til at RL er langt langt mindre informasjonstett enn forhåndstrening. Og jeg er enig med Toby i at etterretningsgevinst per FLOP av RL env-trening vil være mindre enn mange antar.
Jobber med et innlegg om dette med @EgeErdil2, @MatthewJBar og @tamaybes. Forhåpentligvis kan vi publisere neste uke.


51,39K
Topp
Rangering
Favoritter