Meta vient de publier ce document qui révèle le secret de l'apprentissage par renforcement (RL) sur les LLMs. Il présente une recette de RL, utilise 400 000 heures de GPU et propose une loi de mise à l'échelle pour la performance avec plus de calcul en RL, comme les lois de mise à l'échelle classiques du pré-entraînement. À lire absolument pour les passionnés d'IA.
Source :
102,65K