Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Meta acaba de lanzar este documento que derrama la salsa secreta del aprendizaje por refuerzo (RL) en los LLM. Presenta una receta de RL, utiliza 400,000 horas de GPU y postula una ley de escalado para el rendimiento con más computación en RL, como las leyes de escalado clásicas de preentrenamiento. Debe leerse para los nerds de la IA.

Fuente:

102.64K

Populares

Ranking

Favoritas