Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Există multă confuzie online cu privire la ce este cu adevărat un mediu RL.
Este literalmente doar un punct de referință.
- Un mediu
- O stare de pornire
- Un verificator care verifică dacă o stare finală este corectă sau acceptabilă
Mediul este un mic sandbox care oferă LLM oportunitatea de a interacționa cu adevărat - de a lua măsuri, de a vedea rezultatele și de a afecta lumea în care se află. În cazul TerminalBench, este doar un container Docker care emulează un terminal real pentru dezvoltatori, complet cu fișiere, dependențe și instrumente de sistem pe care modelul le poate folosi.
Starea de pornire definește ceea ce vede modelul atunci când începe sarcina - intrările, contextul și condițiile inițiale. Într-un benchmark de codare, aceasta ar putea fi starea unui depozit Git când utilizatorul a început să lucreze: fișierele, raportul de eroare, testele eșuate și promptul de pornire al utilizatorului care spune modelului ce trebuie făcut. Este "configurația problemei", înghețată în timp, astfel încât fiecare model începe din aceeași poziție și rezultatul poate fi comparat corect.
În cele din urmă, verificatorul este cel care face totul măsurabil. Este piesa care verifică dacă modelul a rezolvat cu adevărat sarcina - judecătorul automat care transformă ieșirile dezordonate într-un simplu scor sau semnal de trecere/eșec.
De aceea auzi oamenii de la laboratoare spunând "ne-am instruit pe verificatori". Ei vorbesc despre a avea o modalitate automată de a evalua comportamentul modelului. Aceasta devine apoi funcția de recompensă pentru RL sau semnalul de trecere/eșec pentru benchmark-uri.

Limită superioară
Clasament
Favorite

