Prime-RL baru-baru ini mendapat perombakan dokumen termasuk panduan E2E dari contoh pelatihan! Misalnya, melatih QWEN3-1.7B untuk beralih dari 0% -> ~60% tingkat kemenangan di Wordle ENV @willccbb menggunakan beberapa langkah pemanasan SFT dan RL multi-putaran. Dapat berjalan pada satu GPU dalam beberapa jam