RL rất nhạy cảm với các số liệu, lần trước torch compile đã khiến một số lần chạy bị sập, giờ là vllm v1