今週の Ritual Research Digest は、LLM の世界の最新情報と Crypto x AI の交差点をカバーするニュースレターです。 毎週何百もの論文が発行されているため、最新の情報を入手することは不可能です。私たちはあなたがその必要を省くように読書を行います。
すべてのビットが等しいわけではない:推論モデルのためのスケール依存メモリ最適化戦略 著者らは、推論モデルのためのメモリ圧縮の原理を調査しています。モデルのサイズ、精度、世代長、KV キャッシュ圧縮を考慮します。
彼らは尋ねます:固定メモリバジェットの下で、推論タスクの精度を最大化するための要因のバランスはどうですか? AIMEおよびGPQA-DiamondでのQwen3ファミリーに関する1700以上の実験。彼らは、普遍的な戦略は存在しないが、サイズ固有の推奨事項があることに気づきました。
LLM のための強化学習コンピューティングのスケーリング技術 この研究では、RL スケーリングの科学を探求し、コンピューティングで予測可能にスケーリングするレシピである ScaleRL を開発します。この設計は、400,000 GPU 時間を超える RL スケーリングの実証研究に基づいています。
彼らは次の 3 つの重要な原則を見つけました。 - RLパフォーマンスの上限は普遍的ではありません • 苦い教訓はRLにも当てはまります • ピークパフォーマンスを向上させると考えられている一般的な介入は、主にコンピューティング効率を調整しますが、パフォーマンスの上限を大幅に変更することはありません。
LLMは「脳腐れ」になる可能性がある! この論文では、LLM が脳腐敗を起こす可能性があるかどうか、つまり、ジャンク Web テキストでトレーニングされた場合、LLM の認知機能が持続的に低下するかどうかを研究します。 彼らは、2 つのジャンク指標を介してソーシャル メディア (Twitter/X) からデータセットを構築することで実験を行っています。
クリーンデータセットとジャンクデータセットの比較ベンチマークは、ジャンク介入が推論、長期文脈、倫理規範の認知的低下と関連していることを示しています。 LLM の暗い性格は M1 ジャンク介入によって現れ、重大な安全上の懸念を引き起こします。
事前トレーニング済みモデルを捨てないでください アライメント/RL は LLM トレーニングに不可欠になっていますが、事前トレーニングされた基本モデルが優れているいくつかの欠点があります。このホワイトペーパーでは、両方の世界の利点を活用し、適応性のある AI システムを開発する方法を検討します。
彼らは、複数のモデルチェックポイントが生成のために動的に選択されるスイッチ生成を提案しています。 8 つのコラボレーション ベースラインと 18 のデータセットを使用した実験では、モデル コラボレーション アプローチが 18 のデータセットのうち 16 の個々のモデルよりも優れていることが実証されています。
ネクストトークン予測後の強化学習が学習をどのように促進するか この論文では、自己回帰モデルが、このトレーニングレシピ(ネクストトークン予測とそれに続く強化学習)に従うことで、困難な予測タスクにどのように成功するかを研究しています。
実験では、事前トレーニング データに関心のあるタスクのまれなデモンストレーションが含まれていると仮定します。 これに基づいて、彼らは次のように説明します。 - 事前トレーニング中の一般化の難しさ - RLが急速な改善につながる方法 - 応答が長くなる原因は何ですか?
暗号通貨 x AI 研究に関するすべての詳細については、@ritualdigest をフォローしてください。 @ritualnet Ritualが構築しているものについて詳しく知りたい。
569