賭けは、継続的な学習システムの構築にあります。これはどういう意味ですか?Cursor の更新は実用的な例です。新しいデータが入ってくると、システムは最も価値のあるサンプルをフィルタリングする方法を知っています。次に、RL/他のアルゴリズムを利用して、そのデータを使用してトレーニングされたチェックポイントをデプロイします。
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari2025年8月23日
GRPOを使用した場合の学習後データを収集するためのより良いレシピを紹介します。専門家からサンプルを収集するのは費用がかかり、注釈の予算も限られています。実際にお金を払う価値のある例はどれですか?ハードサンプルに焦点を当てると、30〜40%の改善が得られることがわかりました。 1/7
このようなシステムを操作できるメタアルゴリズムを構築するには、まず各コンポーネントを注意深く検討する必要があります。トレーニング実行中は、初期の兆候に基づいて実行を続行するか停止するかを評価できます。これを行うために、何百回もの実行から得られた洞察がそのようなシステムに消化されます。
この一連の作業は、検証可能な報酬で問題を推論するためのこのプロセスを開始します。これは、学習用の単純なパイプラインを構築するための最も「安定した」設定であるためです。次のフロンティアは、LLMを裁判官として、長期にわたる遅延報酬設定です。
757