6 Monate nach der Veröffentlichung unseres Papiers erinnere ich mich noch an die Debatten über die Entfernung des Längen-Normalisierungsterms in DrGRPO. Und die Leute denken allmählich, dass DrGRPO nur darum geht, die Standardabweichung zu entfernen, und ignorieren die wichtigste und subtilste (Längen-)Voreingenommenheit, auf die wir die Gemeinschaft aufmerksam machen wollten. Selbst jetzt teilen viele Papiere (und Open-Source-Code) immer noch den Policy-Gradient-Verlust durch die Antwortlänge – sie nehmen den Durchschnitt anstelle der Summe... Glücklicherweise hoffe ich, dass es mit Tinkers Implementierung als Referenz überzeugender für die OSS-Gemeinschaft sein wird, die unverzerrte RL-Verlustberechnung zu übernehmen. Ich bin so dankbar an Thinking Machines, dass sie die Grenzen der offenen Wissenschaft verschieben 🚀