Salut tout le monde, merci pour l'intérêt jusqu'à présent. Voici une explication de ce que nous avons fait TLDR : C'est PPO plus des neurones vivants dans une boucle fermée. La politique "parle" via la stimulation, les cellules "répondent" via des pics, et la fonction de valeur fournit un signal de surprise que je renvoie par stimulation afin que la politique puisse communiquer à quel point une action était bonne ou mauvaise. Avant DOOM, il y avait Pong, qui reposait sur des mappings faits à la main. Dans un petit environnement, vous pouvez définir manuellement ce que signifie le retour d'information et le garder cohérent. À mesure que l'environnement devient plus complexe, les signaux faits à la main deviennent plus difficiles et deviennent incohérents. Le nombre de contextes où un signal doit signifier la même chose explose, et vous commencez à réinventer l'invariance à la main. DOOM est 3D et compositionnel. Marcher + tourner + tirer peut se produire en même temps. Le bon mapping ne peut pas être un tas de règles, donc j'avais besoin d'un générateur de signaux qui reste cohérent à mesure que le comportement change. C'est pourquoi j'ai utilisé PPO. Les pics ne sont pas différentiables, et la fonction de valeur de PPO nous donne un moyen de définir objectivement une "surprise" combinée pour la politique et les cellules afin de la transformer en un langage de retour d'information en ligne. La politique ne sort pas directement "avance" ou "tire". La politique sort une stimulation. Les cellules répondent par des pics. Ces pics sont ce qui sélectionne l'action de jeu, via une lecture linéaire. En plus de cela, la fonction de valeur vous donne une estimation en ligne du retour, ce qui vous permet de calculer la surprise comme l'erreur de prédiction. En fonction de cette surprise d'action, nous ajustons la fréquence et l'amplitude en conséquence pour nos différents schémas de retour d'information. Par exemple, si une action était positive et que la fonction de valeur disait "haute surprise", alors nous réduisons la fréquence du retour d'information positif pour cette action, rendant les actions plus "prévisibles" que les cellules préfèrent.