prime-rl 最近进行了文档大修,包括训练示例的端到端演练! 例如,在 @willccbb 的 wordle 环境中训练 qwen3-1.7b,从 0% 提高到 ~60% 的胜率,使用几步 sft 热身和多回合 rl。可以在几小时内在单个 GPU 上运行。