Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sei mesi dopo il rilascio del nostro documento, ricordo ancora i dibattiti sulla rimozione del termine di normalizzazione della lunghezza in DrGRPO. E la gente comincia gradualmente a pensare che DrGRPO riguardi solo la rimozione della deviazione standard, ignorando il bias (lunghezza) più importante e sottile che abbiamo cercato di evidenziare alla comunità.
Anche ora, molti documenti (e codice open-source) continuano a dividere la perdita del gradiente della politica per la lunghezza della risposta, prendendo la media invece della somma...
Fortunatamente, con l'implementazione di Tinker come riferimento, spero che sarà più convincente per la comunità OSS adottare il calcolo della perdita RL non biasata.
Sono così grato a Thinking Machines per aver spinto i confini della scienza aperta 🚀

Principali
Ranking
Preferiti