一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

prime-rl 最近進行了文檔的全面更新，包括訓練示例的端到端操作指南！例如，在 @willccbb 的 wordle 環境中，訓練 qwen3-1.7b 從 0% 提升到約 60% 的勝率，使用幾個步驟的 sft 熱身和多回合強化學習。可以在幾小時內在單個 GPU 上運行。