一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

你准备好进行网络规模的预训练与强化学习了吗？ 🚀 🔥 新论文：RLP：强化学习预训练我们颠覆了推理LLM的常规做法：我们不再将强化学习留到后期训练，而是将探索引入预训练。核心思想：将思维链视为一种行动。通过它为下一个标记提供的信息增益来奖励它：这在普通文本上提供了无验证者的密集奖励，没有任务检查器，没有标签，没有过滤。这有什么重要性？ * 🧠 模型在预训练期间预测之前进行思考，而不仅仅是在对齐之后。 * 📈 每个标记的逐位置信用 = 在全网络规模下的稳定信号。 * 🔁 没有代理过滤器或“简单标记”启发式。训练整个流。结果：在8个基准数学+科学套件（AIME’25，MATH‑500，GSM8K，AMC’23，Minerva Math，MMLU，MMLU‑Pro，GPQA）上： • Qwen3-1.7B-Base： RLP使整体平均提高了24%！ • Nemotron-Nano-12B-v2-Base： RLP使整体平均提高了43%！...