論文の発表から6か月が経ちましたが、DrGRPOの長さ正規化項を削除することについての議論を今でも覚えています。そして、人々は徐々に、DrGRPOは、私たちがコミュニティに指摘しようとした最も重要で微妙な(長さの)バイアスを無視して、性感染症を取り除くだけだと考えています。 現在でも、多くの論文(およびオープンソースコード)は、ポリシー勾配損失を応答長で割っています。 幸いなことに、Tinker の実装を参考にすることで、OSS コミュニティが偏りのない RL 損失計算を採用することがより説得力があることを願っています。 オープンサイエン🚀スの限界を押し広げてくれたThinking Machinesにとても感謝しています