Ви готові до попереднього навчання в веб-масштабі з RL? 🚀 🔥 Нова робота: РЛП : Попереднє навчання з підкріпленням Ми перевертаємо звичний рецепт міркувань LLM: замість того, щоб приберегти RL для посттренінгу, ми вносимо дослідження в передтренування. Основна ідея: ставитися до ланцюжка думок як до дії. Винагородіть його за рахунок інформаційного виграшу, який він надає для наступного токена: Це дає щільну винагороду без перевірки, щільну винагороду за звичайний текст без перевірок завдань, без міток, без фільтрації. Чому це важливо? 🧠 * Моделі думають перед прогнозуванням під час передтренувальної підготовки, а не тільки після вирівнювання. 📈 * Позиційний кредит на кожному токені = стабільний сигнал на повному веб-масштабі. 🔁 * Жодних фільтрів проксі або евристики "easy-token". Тренується на всьому потоці. Результатів: На 8-еталонному пакеті math+science (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA): • Qwen3-1.7B-база: RLP покращує загальний середній показник на 24%! • Nemotron-Nano-12B-v2-Base: RLP покращує загальний середній показник на 43%!...