prime-rl 最近進行了文檔的全面更新,包括訓練示例的端到端操作指南! 例如,在 @willccbb 的 wordle 環境中,訓練 qwen3-1.7b 從 0% 提升到約 60% 的勝率,使用幾個步驟的 sft 熱身和多回合強化學習。可以在幾小時內在單個 GPU 上運行。