Meta щойно випустила цю статтю, яка розливає секретний соус навчання з підкріпленням (RL) на LLM. Він викладає рецепт RL, використовує 400 000 годин графічного процесора та пропонує закон масштабування для продуктивності з більшою кількістю обчислень у RL, як класичні закони масштабування перед навчанням. Обов'язково до прочитання для ботаніків зі штучним інтелектом.
Джерело:
102,64K