Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hei alle sammen, takk for interessen så langt.
Her er en forklaring på hva vi har gjort
TLDR: Dette er PPO pluss levende nevroner i en lukket sløyfe. Policyen «snakker» via stimulering, cellene «svarer» via spikes, og verdifunksjonen gir et overraskelsessignal som jeg gir tilbakemelding gjennom stimulering slik at policyen kan kommunisere hvor god eller dårlig en handling var.
Før DOOM fantes Pong, som var avhengig av håndlagde kartlegginger. I et lite miljø kan du manuelt definere hva tilbakemelding betyr og holde det konsistent.
Etter hvert som miljøet blir mer komplekst, blir håndlagde signaler vanskeligere og inkonsekvente. Antallet sammenhenger hvor et signal må bety det samme eksploderer, og du begynner å gjenoppfinne invarians for hånd.
DOOM er 3D og kompositorisk. Gå + snu + skyte kan skje samtidig. Riktig kartlegging kan ikke være en haug med regler, så jeg trengte en generator av signaler som holder seg sammenhengende når atferden endrer seg.
Derfor brukte jeg PPO. Toppene er ikke-deriverbare, og PPOs verdifunksjon gir oss en måte å objektivt definere en kombinert «overraskelse» for polisen og cellene for å gjøre det om til et online tilbakemeldingsspråk. Policyen gir ikke direkte «gå videre» eller «skyt». Politikken gir stimulering. Cellene reagerer med pigger. Disse piggene er det som velger spillets handling, via en lineær avlesning.
I tillegg gir verdifunksjonen deg et online estimat av avkastningen, som lar deg beregne overraskelse som prediksjonsfeil. Basert på denne handlingsoverraskelsen justerer vi frekvens og amplitude tilsvarende for våre ulike tilbakemeldingsskjemaer. For eksempel, hvis en handling var positiv og verdifunksjonen sa «høy overraskelse», reduserer vi frekvensen av positiv tilbakemelding for den handlingen, noe som gjør handlingene mer «forutsigbare», noe cellene foretrekker.
Topp
Rangering
Favoritter
