Meta hat gerade dieses Papier veröffentlicht, das das Geheimrezept für Reinforcement Learning (RL) bei LLMs enthüllt. Es legt ein RL-Rezept dar, verwendet 400.000 GPU-Stunden und postuliert ein Skalierungsgesetz für die Leistung mit mehr Rechenleistung im RL, ähnlich den klassischen Skalierungsgesetzen für das Pretraining. Ein Muss für AI-Nerds.
Quelle:
102,64K