Aquí está el Ritual Research Digest de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI. Con cientos de artículos publicados semanalmente, mantenerse al día con los últimos es imposible. Hacemos la lectura para que usted no tenga que hacerlo.
Los tokens de baja probabilidad sostienen la exploración en el aprendizaje por refuerzo con recompensa verificable Este artículo encuentra que el cuello de botella de los modelos de razonamiento puede provenir de la eliminación de tokens exploratorios de baja probabilidad (los denominan chispas de razonamiento).
Introducen Lp-Reg para preservar valiosos tokens de baja probabilidad a través de la regularización. Lp-Reg primero descarta los tokens ruidosos de baja probabilidad y luego redistribuye la masa de probabilidad entre los candidatos restantes. En 5 puntos de referencia matemáticos en Qwen3-14B, mejoran en un 2,66%.
Sobre el papel del muestreo de temperatura en el escalado del tiempo de prueba La escala reciente de la escala de tiempo de prueba (TTS) ha aumentado Pass@k a 1024, pero ¿hemos alcanzado el techo del rendimiento de TTS? El documento muestra, a través del muestreo de temperatura, que podemos escalar aún más el TTS.
Los documentos muestran que la temperatura puede ser una nueva dimensión para escalar en el momento de la prueba. A través de experimentos en Qwen3 (0.6B, 1.7B, 4B, 8B) y cinco puntos de referencia, la escala de temperatura produce 7.3 puntos sobre TTS de temperatura única. También diseñan un método eficiente para el escalado en T.
DiffuSpec: Desbloqueo de modelos de lenguaje de difusión para la decodificación especulativa Los modelos de difusión como redactores para la decodificación especulativa son una buena opción debido al mayor rendimiento de la propuesta de token por paso y la mayor calidad de la propuesta.
Sin embargo, los modelos de difusión sufren problemas relacionados con la alineación causal y la longitud del borrador. Para abordar estos problemas, el documento presenta DiffuSpec, un método sin capacitación. En diversas tareas, ofrece hasta un 3× de aceleración del reloj, superando a otras líneas de base sin capacitación.
Al generar datos sintéticos de diversos grados de dificultad de legibilidad, encuentran que la legibilidad no es la clave para la coherencia en los modelos de lenguaje pequeños. Sus hallazgos sugieren que la simplicidad estadística es un predictor más fuerte de la capacidad de aprendizaje en SLM.
Síganos @ritualdigest para obtener más información sobre todo lo relacionado con la investigación de cripto x IA, y @ritualnet para obtener más información sobre lo que Ritual está construyendo.
1.47K