你准备好进行网络规模的预训练与强化学习了吗? 🚀 🔥 新论文:RLP:强化学习预训练 我们颠覆了推理LLM的常规做法:我们不再将强化学习留到后期训练,而是将探索引入预训练。 核心思想:将思维链视为一种行动。 通过它为下一个标记提供的信息增益来奖励它: 这在普通文本上提供了无验证者的密集奖励,没有任务检查器,没有标签,没有过滤。 这有什么重要性? * 🧠 模型在预训练期间预测之前进行思考,而不仅仅是在对齐之后。 * 📈 每个标记的逐位置信用 = 在全网络规模下的稳定信号。 * 🔁 没有代理过滤器或“简单标记”启发式。训练整个流。 结果: 在8个基准数学+科学套件(AIME’25,MATH‑500,GSM8K,AMC’23,Minerva Math,MMLU,MMLU‑Pro,GPQA)上: • Qwen3-1.7B-Base: RLP使整体平均提高了24%! • Nemotron-Nano-12B-v2-Base: RLP使整体平均提高了43%!...