Thú vị thay, chúng tôi đã có nhiều quan sát tương tự trong các ví dụ khó của chúng tôi là tốt nhất cho bài báo GRPO từ tháng trước Bao gồm tỷ lệ có thể học được trong giải thích tập huấn luyện cho hiện tượng này