Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hola a todos, gracias por el interés hasta ahora.
Aquí tienes una explicación de lo que hemos hecho
Resumen: Esto es PPO más neuronas vivas en un circuito cerrado. La política "habla" mediante estimulación, las células "responden" mediante picos, y la función de valor proporciona una señal sorpresa que yo devolvo mediante estimulación para que la política pueda comunicar si fue buena o mala una acción.
Antes de DOOM, existía Pong, que dependía de mapas hechos a mano. En un entorno pequeño, puedes definir manualmente qué significa la retroalimentación y mantenerla consistente.
A medida que el entorno se vuelve más complejo, las señales hechas a mano se vuelven más difíciles e inconsistentes. El número de contextos en los que una señal debe significar lo mismo explota, y empiezas a reinventar la invariancia a mano.
DOOM es 3D y composicional. Caminar + girar + disparar puede ocurrir al mismo tiempo. El mapeo correcto no puede ser un montón de reglas, así que necesitaba un generador de señales que se mantuviera coherente a medida que cambia el comportamiento.
Por eso usé PPO. Los picos no son diferenciables, y la función de valor de PPO nos da una forma objetiva de definir una "sorpresa" combinada para la política y las células para convertirla en un lenguaje de retroalimentación online. La política no indica directamente "avanzar" o "disparar". La política genera estímulos. Las células responden con picos. Esos picos son los que seleccionan la acción del juego, mediante una lectura lineal.
Además, la función de valor te da una estimación online del retorno, lo que te permite calcular la sorpresa como error de predicción. Basándonos en esta sorpresa de acción, ajustamos la frecuencia y la amplitud en consecuencia para nuestros diferentes esquemas de retroalimentación. Por ejemplo, si una acción fuera positiva y la función de valor dijera "alta sorpresa", entonces reducimos la frecuencia de la retroalimentación positiva de esa acción, haciendo que las acciones sean más "predecibles", que prefieren las células.
Populares
Ranking
Favoritas
