O Prime-RL recentemente recebeu uma revisão do Docs, incluindo orientações E2E de exemplos de treinamento! Por exemplo, treinar QWEN3-1.7B para ir de 0% a > ~ 60% de taxa de vitória no Wordle ENV de @willccbb usando algumas etapas de aquecimento SFT e RL de várias voltas. Pode ser executado em uma única GPU em poucas horas