DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Hola a todos, gracias por el interés hasta ahora. Aquí hay una explicación de lo que hemos hecho Resumen: Esto es PPO más neuronas vivas en un bucle cerrado. La política "habla" a través de la estimulación, las células "responden" a través de picos, y la función de valor proporciona una señal de sorpresa que retroalimento a través de la estimulación para que la política pueda comunicar cuán buena o mala fue una acción. Antes de DOOM, existía Pong, que dependía de mapeos hechos a mano. En un entorno pequeño, puedes definir manualmente lo que significa la retroalimentación y mantenerlo consistente. A medida que el entorno se vuelve más complejo, las señales hechas a mano se vuelven más difíciles y se vuelven inconsistentes. El número de contextos donde una señal debe significar lo mismo explota, y comienzas a reinventar la invariancia a mano. DOOM es 3D y composicional. Caminar + girar + disparar puede suceder al mismo tiempo. El mapeo correcto no puede ser un montón de reglas, así que necesitaba un generador de señales que se mantenga coherente a medida que el comportamiento cambia. Por eso usé PPO. Los picos son no diferenciables, y la función de valor de PPO nos da una manera de definir objetivamente una "sorpresa" combinada para la política y las células para convertirla en un lenguaje de retroalimentación en línea. La política no emite directamente "moverse hacia adelante" o "disparar". La política emite estimulación. Las células responden con picos. Esos picos son los que seleccionan la acción del juego, a través de una lectura lineal. Además, la función de valor te da una estimación en línea del retorno, lo que te permite calcular la sorpresa como el error de predicción. Basado en esta sorpresa de acción, ajustamos la frecuencia y la amplitud en consecuencia para nuestros diferentes esquemas de retroalimentación. Por ejemplo, si una acción fue positiva y la función de valor dijo "alta sorpresa", entonces reducimos la frecuencia de la retroalimentación de acción positiva para esa acción, haciendo que las acciones sean más "predecibles", lo que las células prefieren.

Parte superior

Clasificación

Favoritos