Meta acaba de lanzar este documento que derrama la salsa secreta del aprendizaje por refuerzo (RL) en los LLM. Presenta una receta de RL, utiliza 400,000 horas de GPU y postula una ley de escalado para el rendimiento con más computación en RL, como las leyes de escalado clásicas de preentrenamiento. Debe leerse para los nerds de la IA.
Fuente:
102.64K