Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Satsingen er på å bygge et kontinuerlig læringssystem. Hva betyr dette? Cursors oppdatering er et fungerende eksempel. Nye data kommer inn, systemet vet hvordan det skal filtrere etter de mest verdifulle prøvene. Den utnytter deretter RL/andre algoritmer for å distribuere et sjekkpunkt trent ved hjelp av nevnte data.

23. aug. 2025
Vi introduserer en bedre oppskrift for innsamling av data etter trening ved bruk av GRPO. Å samle inn prøver fra eksperter er dyrt, merknadsbudsjettene er begrenset. Hvilke eksempler er egentlig verdt å betale for? Vi finner at fokus på harde prøver resulterer i en forbedring på 30-40 %.
1/7

Hver komponent må studeres nøye først for å bygge en metaalgoritme som kan betjene et slikt system. Under en treningskjøring kan den evaluere om den skal fortsette eller stoppe løpeturen, basert på tidlige tegn. For å gjøre dette blir innsikt fra 100-vis av kjøringer fordøyd inn i et slikt system.
Denne arbeidslinjen starter denne prosessen for å resonnere problemer med verifiserbare belønninger. Siden dette er den mest "stabile" innstillingen for å bygge en enkel pipeline for læring. De neste grensene vil være LLM-som-dommer og langsiktige, forsinkede belønningsinnstillinger.
872
Topp
Rangering
Favoritter