Aquí está el Ritual Research Digest de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI. Con cientos de artículos publicados semanalmente, mantenerse al día con los últimos es imposible. Hacemos la lectura para que usted no tenga que hacerlo.
Este documento pregunta: ¿Qué verificar? ¿Cómo verificar? ¿Y por qué verificar? Encuentran que el valor de la verificación depende de no tener una aplicación demasiado rígida que descarte soluciones razonables, mientras que ignorar la verificación por completo permite que dominen los datos de baja calidad.
Variación en la verificación: comprensión de la dinámica de verificación en grandes modelos de lenguaje El documento estudia los factores que influyen en el éxito de la verificación a lo largo de - dificultad del problema - capacidad de generación de generadores - capacidad de generación de verificadores.
Encuentran que: - Es más probable que los verificadores reconozcan las soluciones correctas en problemas fáciles - Los errores cometidos por generadores débiles son más fáciles de detectar que los cometidos por generadores fuertes - La capacidad de generación del verificador se correlaciona con el rendimiento en una dificultad de problema.
Aprendizaje por refuerzo en datos previos al entrenamiento El documento propone RLPT, que escala RL en datos previos al entrenamiento. Proponen un objetivo de razonamiento del siguiente segmento que recompensa a los LLM por predecir correctamente el siguiente segmento dado el contexto anterior.
Extensos experimentos sobre razonamiento matemático y de dominio general muestran que el RLPT mejora sustancialmente el rendimiento y exhibe una tendencia de escalado favorable, y demuestran además que el RLPT proporciona una base sólida para el RLVR posterior.
ARE: Ampliación de entornos y evaluaciones de agentes Este artículo propone Meta Agents Research Environments (ARE), una plataforma que admite orquestaciones, creación de entornos y conexión de aplicaciones para el desarrollo y evaluación de agentes.
El documento también presenta Gaia2, una evaluación para agentes. Gaia2 se compone de 1.120 escenarios verificables y anotados que tienen lugar en un entorno móvil, imitando un teléfono inteligente con aplicaciones como correo electrónico, mensajería y calendario. Encuentran que gpt-5 high funciona mejor.
Síganos @ritualdigest para obtener más información sobre todo lo relacionado con la investigación de cripto x IA, y @ritualnet para obtener más información sobre lo que Ritual está construyendo.
7.22K