トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
論文の発表から6か月が経ちましたが、DrGRPOの長さ正規化項を削除することについての議論を今でも覚えています。そして、人々は徐々に、DrGRPOは、私たちがコミュニティに指摘しようとした最も重要で微妙な(長さの)バイアスを無視して、性感染症を取り除くだけだと考えています。
現在でも、多くの論文(およびオープンソースコード)は、ポリシー勾配損失を応答長で割っています。
幸いなことに、Tinker の実装を参考にすることで、OSS コミュニティが偏りのない RL 損失計算を採用することがより説得力があることを願っています。
オープンサイエン🚀スの限界を押し広げてくれたThinking Machinesにとても感謝しています

トップ
ランキング
お気に入り