Prime-RL sai äskettäin Docs-uudistuksen, joka sisältää E2E-esittelyjä koulutusesimerkeistä! Esimerkiksi QWEN3-1.7B:n kouluttaminen siirtymään 0 %:sta > ~60 %:n voittoprosenttiin @willccbb:n Wordle ENV:ssä käyttämällä paria vaihetta SFT-lämmittelyä ja monikierrosta RL:ää. Voi toimia yhdellä GPU:lla muutamassa tunnissa