Aquí está el Ritual Research Digest de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI. Con cientos de artículos publicados semanalmente, mantenerse al día con los últimos es imposible. Hacemos la lectura para que usted no tenga que hacerlo.
No todos los bits son iguales: estrategias de optimización de memoria dependientes de la escala para modelos de razonamiento Los autores investigan los principios de compresión de la memoria para modelos de razonamiento. Consideran el tamaño del modelo, la precisión, la longitud de generación y la compresión de caché KV.
Preguntan: Bajo un presupuesto de memoria fijo, ¿cuál es el equilibrio de los factores para maximizar la precisión en las tareas de razonamiento? Más de 1700 experimentos en la familia Qwen3 en AIME y GPQA-Diamond. Encuentran que no existe una estrategia universal, pero tienen recomendaciones específicas de tamaño.
El arte de escalar el cómputo de aprendizaje por refuerzo para LLM Este trabajo explora la ciencia del escalado de RL y desarrolla ScaleRL, una receta que escala de manera predecible con la computación. El diseño se basa en un estudio empírico de RL escalando más de 400,000 GPU-hora.
Encuentran tres principios clave: • Los techos de rendimiento de RL no son universales • La amarga lección también se aplica a RL • Las intervenciones comunes que se cree que mejoran el rendimiento máximo ajustan principalmente la eficiencia informática, sin cambiar considerablemente el techo de rendimiento.
¡Los LLM pueden tener "podredumbre cerebral"! Este artículo estudia si los LLM pueden tener pudrición cerebral, es decir, si se entrenan con texto web basura, ¿tiene un deterioro cognitivo duradero en los LLM? Experimentan construyendo conjuntos de datos a partir de las redes sociales (Twitter / X) a través de las dos métricas basura.
La evaluación comparativa entre conjuntos de datos limpios y basura muestra que la intervención basura está asociada con declives cognitivos en el razonamiento, el contexto prolongado y las normas éticas. Las personalidades oscuras de los LLM emergen con la intervención basura de M1, lo que genera importantes preocupaciones de seguridad.
No deseche su modelo preentrenado La alineación / RL se ha convertido en parte integral del entrenamiento de LLM, pero tiene varios inconvenientes, en los que sobresalen los modelos base preentrenados. Este documento examina cómo aprovechar los beneficios de ambos mundos y desarrollar sistemas de IA adaptables.
Proponen la generación de interruptores, donde se seleccionan dinámicamente múltiples puntos de control de modelos para la generación. Los experimentos con 8 líneas de base de colaboración y 18 conjuntos de datos demuestran que los enfoques de colaboración de modelos superan a todos los modelos individuales en 16 de los 18 conjuntos de datos.
Cómo el aprendizaje por refuerzo después de la predicción del siguiente token facilita el aprendizaje El documento estudia cómo los modelos autorregresivos tienen éxito en las tareas de predicción desafiantes siguiendo esta receta de entrenamiento (predicción del siguiente token seguida de aprendizaje por refuerzo).
Para los experimentos, asumen que los datos previos al entrenamiento contienen demostraciones raras para una tarea de interés. En base a esto, explican: - Dificultad de generalización durante el entrenamiento previo - Cómo RL conduce a una mejora rápida - ¿Qué conduce a respuestas más largas?
Síganos @ritualdigest para obtener más información sobre todo lo relacionado con la investigación de cripto x IA, y @ritualnet para obtener más información sobre lo que Ritual está construyendo.
467