热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
你准备好进行网络规模的预训练与强化学习了吗? 🚀
🔥 新论文:RLP:强化学习预训练
我们颠覆了推理LLM的常规做法:我们不再将强化学习留到后期训练,而是将探索引入预训练。
核心思想:将思维链视为一种行动。
通过它为下一个标记提供的信息增益来奖励它:
这在普通文本上提供了无验证者的密集奖励,没有任务检查器,没有标签,没有过滤。
这有什么重要性?
* 🧠 模型在预训练期间预测之前进行思考,而不仅仅是在对齐之后。
* 📈 每个标记的逐位置信用 = 在全网络规模下的稳定信号。
* 🔁 没有代理过滤器或“简单标记”启发式。训练整个流。
结果:
在8个基准数学+科学套件(AIME’25,MATH‑500,GSM8K,AMC’23,Minerva Math,MMLU,MMLU‑Pro,GPQA)上:
• Qwen3-1.7B-Base:
RLP使整体平均提高了24%!
• Nemotron-Nano-12B-v2-Base:
RLP使整体平均提高了43%!...

热门
排行
收藏