6 miesięcy po wydaniu naszego artykułu, wciąż pamiętam debaty na temat usunięcia terminu normalizacji długości w DrGRPO. A ludzie stopniowo myślą, że DrGRPO polega tylko na usunięciu std, ignorując najważniejszy i subtelny (długościowy) błąd, na który próbowaliśmy zwrócić uwagę społeczności. Nawet teraz wiele artykułów (i kodu open-source) wciąż dzieli stratę gradientu polityki przez długość odpowiedzi—biorąc średnią zamiast sumy... Na szczęście, z implementacją Tinkera jako odniesieniem, mam nadzieję, że będzie to bardziej przekonujące dla społeczności OSS, aby przyjęła obliczenia strat RL bezstronnych. Jestem bardzo wdzięczny Thinking Machines za przesuwanie granic otwartej nauki 🚀