今週の Ritual Research Digest は、LLM の世界の最新情報と Crypto x AI の交差点をカバーするニュースレターです。 毎週何百もの論文が発行されているため、最新の情報を入手することは不可能です。私たちはあなたがその必要を省くように読書を行います。
この論文は、何を検証するかを尋ねます。確認方法は?そして、なぜ検証するのでしょうか? 彼らは、検証の価値は、合理的な解決策を破棄する過度に厳格な執行を行わないことにかかっている一方、検証を完全に無視すると、低品質のデータが支配的になることを発見しました。
検証のバリエーション: 大規模言語モデルにおける検証ダイナミクスの理解 この論文では、検証の成功に影響を与える要因を研究しています。 - 問題難易度 - 発電機の発電能力 - 検証者の生成機能。
彼らは次のことを発見しました。 - 検証者は、簡単な問題に対して正しい解決策を認識する可能性が高くなります - 弱いジェネレータによるエラーは、強力なジェネレータによるエラーよりも検出しやすい - 検証者の生成機能は、問題の難易度でのパフォーマンスと相関しています。
事前学習データに対する強化学習 この論文では、事前学習データに基づいてRLをスケーリングするRLPTを提案しています。彼らは、前のコンテキストを考慮して次のセグメントを正しく予測したLLMに報酬を与える次のセグメント推論目標を提案しています。
一般領域および数学的推論に関する広範な実験は、RLPTがパフォーマンスを大幅に向上させ、好ましいスケーリング傾向を示すことを示し、さらに、RLPTがその後のRLVRに強力な基盤を提供することを示しています。
ARE: エージェント環境と評価のスケールアップ 本稿では、エージェントの開発と評価のためのオーケストレーション、環境の作成、アプリの接続をサポートするプラットフォームであるMeta Agents Research Environments(ARE)を提案します。
また、エージェントの評価であるGaia2も紹介しています。Gaia2は、モバイル環境で行われる1,120の検証可能な注釈付きシナリオで構成されており、電子メール、メッセージング、カレンダーなどのアプリを備えたスマートフォンを模倣しています。彼らは、gpt-5 high が最もパフォーマンスが高いことを発見しました。
暗号通貨 x AI 研究に関するすべての詳細については、@ritualdigest をフォローしてください。 @ritualnet Ritualが構築しているものについて詳しく知りたい。
7.22K