Через 6 місяців після виходу нашої статті я все ще пам'ятаю дебати щодо вилучення терміну нормалізації тривалості в DrGRPO. І люди поступово думають, що DrGRPO — це просто видалення ЗПСШ, ігноруючи найважливіше і тонке (довжине) упередження, на яке ми намагалися вказати спільноті. Навіть зараз багато статей (і відкритий вихідний код) все ще ділять втрату градієнта політики на довжину відповіді — беручи середнє значення замість суми... На щастя, з урахуванням реалізації Tinker як довідника, я сподіваюся, що для спільноти OSS буде більш переконливим прийняти неупереджене обчислення втрат RL. Дуже вдячний Thinking Machines за те, що вони розширюють межі відкритої науки 🚀