Aquí está el Digest de Investigación Ritual de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI. Con cientos de artículos publicados semanalmente, mantenerse al día con lo último es imposible. Hacemos la lectura para que tú no tengas que hacerlo.
No todos los bits son iguales: Estrategias de optimización de memoria dependientes de la escala para modelos de razonamiento Los autores investigan los principios de compresión de memoria para modelos de razonamiento. Consideran el tamaño del modelo, la precisión, la longitud de generación y la compresión de caché KV.
Preguntan: Bajo un presupuesto de memoria fijo, ¿cuál es el equilibrio de los factores para maximizar la precisión en tareas de razonamiento? Más de 1700 experimentos en la familia Qwen3 en AIME y GPQA-Diamond. Encuentran que no hay una estrategia universal, pero tienen recomendaciones específicas según el tamaño.
El arte de escalar el cómputo de aprendizaje por refuerzo para LLMs Este trabajo explora la ciencia del escalado de RL y desarrolla ScaleRL, una receta que escala de manera predecible con el cómputo. El diseño se basa en un estudio empírico del escalado de RL durante 400,000 horas de GPU.
Encuentran tres principios clave: • Los techos de rendimiento de RL no son universales • La lección amarga se aplica también a RL • Las intervenciones comunes que se piensa que mejoran el rendimiento máximo principalmente ajustan la eficiencia computacional, sin cambiar considerablemente el techo de rendimiento.
¡Los LLM pueden sufrir "deterioro cognitivo"! Este artículo estudia si los LLM pueden sufrir deterioro cognitivo, es decir, si entrenados con texto basura de la web, ¿tienen un declive cognitivo duradero en los LLM? Experimentan construyendo conjuntos de datos a partir de redes sociales (Twitter/X) a través de las dos métricas de basura.
El análisis comparativo entre conjuntos de datos limpios y de basura muestra que la intervención de basura está asociada con declives cognitivos en el razonamiento, el contexto largo y las normas éticas. Las personalidades oscuras de los LLMs emergen con la intervención de basura M1, planteando preocupaciones significativas de seguridad.
No deseches tu modelo preentrenado La alineación/RL se ha vuelto integral para el entrenamiento de LLM, pero tiene varios inconvenientes, en los que los modelos base preentrenados sobresalen. Este documento examina cómo aprovechar los beneficios de ambos mundos y desarrollar sistemas de IA adaptables.
Proponen Switch Generation, donde se seleccionan dinámicamente múltiples puntos de control de modelos para la generación. Los experimentos con 8 líneas base de colaboración y 18 conjuntos de datos demuestran que los enfoques de colaboración de modelos superan a todos los modelos individuales en 16 de los 18 conjuntos de datos.
Cómo el Aprendizaje por Refuerzo Después de la Predicción del Siguiente Token Facilita el Aprendizaje El artículo estudia cómo los modelos autorregresivos tienen éxito en tareas de predicción desafiantes siguiendo esta receta de entrenamiento (predicción del siguiente token seguida de aprendizaje por refuerzo).
Para los experimentos, asumen que los datos de preentrenamiento contienen demostraciones raras para una tarea de interés. Basado en esto, explican: - Dificultad de generalización durante el preentrenamiento - Cómo el RL conduce a una mejora rápida - ¿Qué lleva a respuestas más largas?
Síguenos en @ritualdigest para más información sobre todo lo relacionado con la investigación en cripto x IA, y @ritualnet para aprender más sobre lo que Ritual está construyendo.
571