分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

🚀 Bytedance Seedで私たちの仕事を共有できることを嬉しく思います! ナップザック RL: 予算配分🎒による LLM の探索のロック解除 LLM トレーニングでの探求は重要ですが、費用がかかります。ロールアウトの割り当てを均一に行うと、無駄になります。 ✅ 簡単なタスク→常に0勾配→解決されます ❌ 困難なタスク→常に 0 勾配→失敗する 💡 私たちの考え方は、探査をナップザックの問題として扱い→最も重要な場所にロールアウトを割り当てることです。 ✨ 業績： 🔼 ゼロ以外のグラデーション+20–40%増加 🧮 ハードタスク用の最大 93 のロールアウト (追加のコンピューティングなし) 📈 +2–4 平均ポイント、数学ベンチマークでのピークゲイン +9 💰 ~2× 均一な割り当てよりも安い 📄 紙：

トップ

ランキング

お気に入り