Meta heeft zojuist dit document uitgebracht dat de geheime formule van reinforcement learning (RL) op LLM's onthult. Het legt een RL-recept uit, gebruikt 400.000 GPU-uren en stelt een schaalwet voor prestaties voor met meer rekencapaciteit in RL, zoals de klassieke pretraining schaalwetten. Moet gelezen worden voor AI-nerds.
Bron:
102,65K