Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Через 6 місяців після виходу нашої статті я все ще пам'ятаю дебати щодо вилучення терміну нормалізації тривалості в DrGRPO. І люди поступово думають, що DrGRPO — це просто видалення ЗПСШ, ігноруючи найважливіше і тонке (довжине) упередження, на яке ми намагалися вказати спільноті.
Навіть зараз багато статей (і відкритий вихідний код) все ще ділять втрату градієнта політики на довжину відповіді — беручи середнє значення замість суми...
На щастя, з урахуванням реалізації Tinker як довідника, я сподіваюся, що для спільноти OSS буде більш переконливим прийняти неупереджене обчислення втрат RL.
Дуже вдячний Thinking Machines за те, що вони розширюють межі відкритої науки 🚀

Найкращі
Рейтинг
Вибране