Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Seis meses após o lançamento do nosso artigo, ainda me lembro dos debates sobre a remoção do termo de normalização de comprimento no DrGRPO. E as pessoas gradualmente pensam que o DrGRPO se resume a remover o desvio padrão, ignorando o viés (de comprimento) mais importante e sutil que tentamos apontar para a comunidade.
Mesmo agora, muitos artigos (e código aberto) ainda dividem a perda do gradiente de política pelo comprimento da resposta—tomando a média em vez da soma...
Felizmente, com a implementação do Tinker como referência, espero que seja mais convincente para a comunidade OSS adotar o cálculo da perda de RL não tendenciosa.
Sou muito grato à Thinking Machines por expandir os limites da ciência aberta 🚀

Top
Classificação
Favoritos