Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
6 Monate nach der Veröffentlichung unseres Papiers erinnere ich mich noch an die Debatten über die Entfernung des Längen-Normalisierungsterms in DrGRPO. Und die Leute denken allmählich, dass DrGRPO nur darum geht, die Standardabweichung zu entfernen, und ignorieren die wichtigste und subtilste (Längen-)Voreingenommenheit, auf die wir die Gemeinschaft aufmerksam machen wollten.
Selbst jetzt teilen viele Papiere (und Open-Source-Code) immer noch den Policy-Gradient-Verlust durch die Antwortlänge – sie nehmen den Durchschnitt anstelle der Summe...
Glücklicherweise hoffe ich, dass es mit Tinkers Implementierung als Referenz überzeugender für die OSS-Gemeinschaft sein wird, die unverzerrte RL-Verlustberechnung zu übernehmen.
Ich bin so dankbar an Thinking Machines, dass sie die Grenzen der offenen Wissenschaft verschieben 🚀

Top
Ranking
Favoriten