Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Salutare tuturor, mulțumesc pentru interesul de până acum. Iată o explicație a ceea ce am făcut
Pe scurt: Acesta este PPO plus neuroni vii într-o buclă închisă. Politica "vorbește" prin stimulare, celulele "răspund" prin spike-uri, iar funcția de valoare oferă un semnal surpriză pe care îl transmit prin stimulare, astfel încât politica să poată comunica cât de bună sau rea a fost o acțiune.
Înainte de DOOM, a existat Pong, care se baza pe hărți realizate manual. Într-un mediu foarte mic, poți defini manual ce înseamnă feedback-ul și să-l menții consecvent.
Pe măsură ce mediul devine mai complex, semnalele realizate manual devin mai dificile și inconsistente. Numărul de contexte în care un semnal trebuie să însemne același lucru explodează, iar tu începi să reinventezi invarianța manual.
DOOM este 3D și compozițional. Mersul + întoarcerea + tragerea pot avea loc în același timp. Maparea corectă nu poate fi un teanc de reguli, așa că aveam nevoie de un generator de semnale care să rămână coerent pe măsură ce comportamentul se schimbă.
De aceea am folosit PPO. Vârfurile sunt nediferențiabile, iar funcția de valoare a PPO ne oferă o modalitate obiectivă de a defini obiectiv o "surpriză" combinată pentru politică și celule, transformând-o într-un limbaj online de feedback.
Politica nu transmite direct "mergi înainte" sau "dispare". Politica aduce stimulare. Celulele răspund prin creșteri. Aceste spike sunt cele care selectează acțiunea jocului, printr-o citire liniară.
Pe lângă asta, funcția de valoare îți oferă o estimare online a randamentului, care îți permite să calculezi surpriza ca eroare de predicție. Pe baza acestei surprize de acțiune, ajustăm frecvența și amplitudinea în consecință pentru diferitele noastre scheme de feedback.
De exemplu, dacă o acțiune este pozitivă și funcția de valoare spune "mare surpriză", atunci reducem frecvența feedback-ului pozitiv al acțiunii pentru acea acțiune, făcând acțiunile mai "previzibile", ceea ce celulele preferă.
Limită superioară
Clasament
Favorite
