o prime-rl recentemente recebeu uma atualização na documentação, incluindo tutoriais e2e de exemplos de treinamento! por exemplo, treinar o qwen3-1.7b para passar de 0% -> ~60% de taxa de vitória no ambiente wordle do @willccbb usando alguns passos de aquecimento sft e rl de múltiplas rodadas. pode ser executado em uma única gpu em algumas horas