Meta は、LLM に関する強化学習 (RL) の秘密のソースをこぼすこの論文を投稿しました。 RL レシピをレイアウトし、400,000 GPU 時間を使用し、従来の事前トレーニング スケーリング ルールのように、RL でより多くのコンピューティングでパフォーマンスを実現するためのスケーリング ルールを想定します。 AIオタクには必読です。
源:
102.64K