Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta acaba de lanzar este documento que derrama la salsa secreta del aprendizaje por refuerzo (RL) en los LLM.
Presenta una receta de RL, utiliza 400,000 horas de GPU y postula una ley de escalado para el rendimiento con más computación en RL, como las leyes de escalado clásicas de preentrenamiento.
Debe leerse para los nerds de la IA.

Fuente:
102.64K
Populares
Ranking
Favoritas