Meta tocmai a lansat această lucrare care varsă sosul secret al învățării prin întărire (RL) pe LLM-uri. Stabilește o rețetă RL, folosește 400.000 de ore GPU și postulează o lege de scalare pentru performanță cu mai mult calcul în RL, cum ar fi legile clasice de scalare pre-antrenament. Trebuie citit pentru tocilarii AI.
Sursă:
102,66K