Společnost Meta právě vypustila tento článek, který na LLM rozlévá tajnou omáčku zpětnovazebního učení (RL). Předkládá recept RL, využívá 400 000 hodin GPU a postuluje zákon škálování pro výkon s větším výpočetním výkonem v RL, jako klasické zákony škálování před trénováním. Povinná četba pro AI nerdy.
Zdroj:
102,64K