Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hola a todos, gracias por el interés hasta ahora.
Aquí hay una explicación de lo que hemos hecho
Resumen: Esto es PPO más neuronas vivas en un bucle cerrado. La política "habla" a través de la estimulación, las células "responden" a través de picos, y la función de valor proporciona una señal de sorpresa que retroalimento a través de la estimulación para que la política pueda comunicar cuán buena o mala fue una acción.
Antes de DOOM, existía Pong, que dependía de mapeos hechos a mano. En un entorno pequeño, puedes definir manualmente lo que significa la retroalimentación y mantenerlo consistente.
A medida que el entorno se vuelve más complejo, las señales hechas a mano se vuelven más difíciles y se vuelven inconsistentes. El número de contextos donde una señal debe significar lo mismo explota, y comienzas a reinventar la invariancia a mano.
DOOM es 3D y composicional. Caminar + girar + disparar puede suceder al mismo tiempo. El mapeo correcto no puede ser un montón de reglas, así que necesitaba un generador de señales que se mantenga coherente a medida que el comportamiento cambia.
Por eso usé PPO. Los picos son no diferenciables, y la función de valor de PPO nos da una manera de definir objetivamente una "sorpresa" combinada para la política y las células para convertirla en un lenguaje de retroalimentación en línea. La política no emite directamente "moverse hacia adelante" o "disparar". La política emite estimulación. Las células responden con picos. Esos picos son los que seleccionan la acción del juego, a través de una lectura lineal.
Además, la función de valor te da una estimación en línea del retorno, lo que te permite calcular la sorpresa como el error de predicción. Basado en esta sorpresa de acción, ajustamos la frecuencia y la amplitud en consecuencia para nuestros diferentes esquemas de retroalimentación. Por ejemplo, si una acción fue positiva y la función de valor dijo "alta sorpresa", entonces reducimos la frecuencia de la retroalimentación de acción positiva para esa acción, haciendo que las acciones sean más "predecibles", lo que las células prefieren.
Parte superior
Clasificación
Favoritos
