Meta acaba de publicar este documento que revela la receta secreta del aprendizaje por refuerzo (RL) en los LLMs. Presenta una receta de RL, utiliza 400,000 horas de GPU y postula una ley de escalado para el rendimiento con más computación en RL, al igual que las clásicas leyes de escalado de preentrenamiento. Lectura obligada para los aficionados a la IA.
Fuente:
102,66K