Prime-RL nedávno prošlo přepracováním dokumentace včetně návodů E2e s výukovými příklady! Například trénování QWen3-1.7B, aby se dostal z 0 % > ~60 % míry výher v @willccbb Wordle ENV pomocí několika kroků zahřívacího SFT a víceotáčkového RL. Může běžet na jednom GPU během několika hodin