Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
6 месяцев после выхода нашей статьи, я все еще помню дебаты о том, чтобы убрать термин нормализации длины в DrGRPO. И люди постепенно начинают думать, что DrGRPO просто о том, чтобы убрать стандартное отклонение, игнорируя самый важный и тонкий (длинный) уклон, на который мы пытались указать сообществу.
Даже сейчас многие статьи (и открытый код) все еще делят потерю градиента политики на длину ответа — беря среднее вместо суммы...
К счастью, с реализацией Tinker в качестве ссылки, я надеюсь, что это будет более убедительно для сообщества OSS принять вычисление безукоризненной потери RL.
Так благодарен Thinking Machines за расширение границ открытой науки 🚀

Топ
Рейтинг
Избранное