🚀 Rất hào hứng để chia sẻ công việc của chúng tôi tại Bytedance Seed! Knapsack RL: Khám phá LLM thông qua phân bổ ngân sách 🎒 Khám phá trong việc đào tạo LLM là rất quan trọng nhưng tốn kém. Phân bổ đồng nhất là lãng phí: ✅ Nhiệm vụ dễ → luôn được giải quyết → 0 gradient ❌ Nhiệm vụ khó → luôn thất bại → 0 gradient 💡 Ý tưởng của chúng tôi: coi việc khám phá như một bài toán knapsack → phân bổ các rollout ở những nơi quan trọng nhất. ✨ Kết quả: 🔼 +20–40% nhiều gradient khác không bằng 0 🧮 Tối đa 93 rollout cho các nhiệm vụ khó (không cần tính toán thêm) 📈 +2–4 điểm trung bình, +9 điểm cao nhất trên các tiêu chuẩn toán học 💰 ~2× rẻ hơn so với phân bổ đồng nhất 📄 Bài báo: