Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
6 meses após o lançamento do nosso artigo, ainda me lembro dos debates sobre a remoção do prazo de normalização de comprimento no DrGRPO. E as pessoas gradualmente pensam que o DrGRPO é apenas sobre a remoção do DST, ignorando o viés mais importante e sutil (comprimento) que tentamos apontar para a comunidade.
Mesmo agora, muitos artigos (e código-fonte aberto) ainda dividem a perda de gradiente de política pelo comprimento da resposta - tomando a média em vez da soma ...
Felizmente, com a implementação do Tinker como referência, espero que seja mais convincente para a comunidade OSS adotar o cálculo imparcial de perda de RL.
Muito grato à Thinking Machines por ultrapassar os limites da ciência 🚀 aberta

Melhores
Classificação
Favoritos