Meta только что выпустила этот документ, в котором раскрывается секретный рецепт обучения с подкреплением (RL) для LLM. В нем изложен рецепт RL, использовано 400,000 часов GPU и предполагается закон масштабирования для производительности с увеличением вычислительных мощностей в RL, как и классические законы масштабирования предобучения. Обязательно к прочтению для любителей ИИ.
Источник:
102,65K