Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Está listo para el entrenamiento previo a escala web con RL? 🚀
🔥 Nuevo artículo: RLP : Pre-entrenamiento de aprendizaje por refuerzo
Le damos la vuelta a la receta habitual para razonar los LLM: en lugar de guardar RL para el entrenamiento posterior, traemos la exploración al entrenamiento previo.
Idea central: tratar la cadena de pensamiento como una acción.
Recompénselo con la ganancia de información que proporciona para el siguiente token:
Esto proporciona una recompensa densa y sin verificador en texto ordinario sin verificadores de tareas, sin etiquetas, sin filtrado.
¿Por qué es importante?
🧠 * Los modelos piensan antes de predecir durante el preentrenamiento, no solo después de la alineación.
📈 * Crédito por posición en cada token = señal estable a escala web completa.
🔁 * Sin filtros de proxy ni heurística de "token fácil". Trenes en todo el arroyo.
Resultados:
En la suite de matemáticas + ciencias de 8 puntos de referencia (AIME'25, MATH-500, GSM8K, AMC'23, Minerva Math, MMLU, MMLU-Pro, GPQA):
• Base Qwen3-1.7B:
¡RLP mejora el promedio general en un 24%!
• Base Nemotron-Nano-12B-v2:
¡RLP mejora el promedio general en un 43%!...

Populares
Ranking
Favoritas