一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

prime-rl 最近进行了文档大修，包括训练示例的端到端演练！例如，在 @willccbb 的 wordle 环境中训练 qwen3-1.7b，从 0% 提高到 ~60% 的胜率，使用几步 sft 热身和多回合 rl。可以在几小时内在单个 GPU 上运行。