Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Oi pessoal, obrigado pelo interesse até agora.
Aqui está uma explicação do que fizemos
Resumo: Isso é PPO mais neurônios vivos em um circuito fechado. A política "fala" por meio de estímulo, as células "respondem" por meio de picos, e a função de valor fornece um sinal surpresa que eu retorno por meio de estímulo para que a política possa comunicar se uma ação foi boa ou ruim.
Antes de DOOM, existia o Pong, que dependia de mapeamentos feitos à mão. Em um ambiente pequeno, você pode definir manualmente o que significa feedback e mantê-lo consistente.
À medida que o ambiente se torna mais complexo, os sinais feitos à mão ficam mais difíceis e inconsistentes. O número de contextos em que um sinal deve significar a mesma coisa explode, e você começa a reinventar a invariância manualmente.
DOOM é 3D e composicional. Andar + virar + atirar pode acontecer ao mesmo tempo. O mapeamento correto não pode ser um monte de regras, então eu precisava de um gerador de sinais que permanecesse coerente conforme o comportamento muda.
Por isso usei PPO. Os picos não são diferenciáveis, e a função de valor do PPO nos dá uma forma de definir objetivamente uma "surpresa" combinada para a apólice e as células, transformando-a em uma linguagem de feedback online. A política não gera diretamente "avance" ou "dispare". A política gera estímulo. As células respondem com picos. Esses picos são o que seleciona a ação do jogo, via uma leitura linear.
Além disso, a função de valor fornece uma estimativa online do retorno, o que permite calcular surpresa como erro de previsão. Com base nessa surpresa de ação, ajustamos a frequência e a amplitude conforme nossos diferentes esquemas de feedback. Por exemplo, se uma ação foi positiva e a função valor disse "alta surpresa", então reduzimos a frequência do feedback positivo da ação para essa ação, tornando as ações mais "previsíveis", o que as células preferem.
Melhores
Classificação
Favoritos
