🚀 Spent på å dele arbeidet vårt på Bytedance Seed! Ryggsekk RL: Låser opp utforskning av LLM-er via budsjettallokering 🎒 Utforskning i LLM-opplæring er avgjørende, men dyrt. Ensartet utrullingstildeling er bortkastet: ✅ Enkle oppgaver → alltid løst → 0 gradient ❌ Harde oppgaver → alltid mislykkes → gradering på 0 💡 Ideen vår: behandle utforskning som et ryggsekkproblem → tildele utrullinger der de betyr mest. ✨ Resultater: 🔼 +20–40 % flere graderinger som ikke er null 🧮 Opptil 93 utrullinger for vanskelige oppgaver (uten ekstra databehandling) 📈 +2–4 gjennomsnittspoeng, +9 toppgevinster på matematikkreferanser 💰 ~2× billigere enn enhetlig tildeling 📄 Papir: