prime-rl gần đây đã được cải tiến tài liệu bao gồm các hướng dẫn e2e về các ví dụ đào tạo! ví dụ, đào tạo qwen3-1.7b để đạt từ 0% -> ~60% tỷ lệ thắng trong môi trường wordle của @willccbb bằng cách sử dụng một vài bước sft warmup và rl nhiều lượt. có thể chạy trên một gpu trong vài giờ.