Aquí está el Digest de Investigación Ritual de esta semana, un boletín que cubre lo último en el mundo de los LLM y la intersección de Crypto x AI. Con cientos de artículos publicados semanalmente, mantenerse al día con lo último es imposible. Nosotros haremos la lectura, así que tú no tienes que hacerlo.
Rúbricas como Recompensas: Aprendizaje por Refuerzo Más Allá de los Dominios Verificables En este artículo, introducen Rúbricas como Recompensas (RaR), un método de aprendizaje por refuerzo que utiliza rúbricas de lista para supervisar tareas que tienen múltiples criterios.
Esto permite un entrenamiento estable y un mejor rendimiento tanto en razonamiento como en dominios del mundo real. Muestran que, cuando se utiliza en los dominios de medicina y ciencia, este estilo de recompensas ayuda a lograr una mejor alineación humana.
Las listas de verificación son mejores que los modelos de recompensa para alinear modelos de lenguaje En este artículo, introducen el Aprendizaje por Refuerzo a partir de Retroalimentación de Listas de Verificación (RLCF) para extraer listas de verificación dinámicas de instrucciones y evaluar en listas flexibles de criterios distintos.
Introducen un conjunto de datos, WildChecklists, que comprende 130,000 instrucciones y listas de verificación (generadas sintéticamente). Su método reduce el problema de calificar respuestas a responder preguntas específicas de sí/no, respondidas por un juez de IA o mediante la ejecución de un programa de verificación.
La correa invisible: ¿Por qué RLVR puede no escapar de su origen? Este documento intenta proporcionar un marco teórico para la pregunta: "¿Amplía RLVR las capacidades de razonamiento o simplemente amplifica lo que los modelos ya saben?"
Encuentran que RLVR: no ayuda al modelo a explorar posibilidades completamente nuevas. Mejora el pass@1, es decir, le permite responder mejor en menos intentos. Reduce la diversidad de respuestas. En resumen, RLVR mejora la precisión, pero a menudo no logra descubrir nuevos caminos de razonamiento.
Más allá de las recompensas binarias: Entrenando LMs para razonar sobre su incertidumbre Este artículo presenta RLCR (Aprendizaje por Refuerzo con Recompensas de Calibración), un método sencillo que entrena a los LLMs para razonar y reflexionar sobre su propia incertidumbre.
Los métodos actuales de RL solo recompensan la corrección, ignorando la confianza del LLM en su solución, lo que incentiva a adivinar. El artículo diseña una recompensa calibrada que es efectiva en benchmarks de QA y matemáticas. También descubren que esta medida de confianza no tiene costo para la precisión.
Escalado Inverso en el Cómputo de Tiempo de Prueba Este artículo construye tareas donde el uso de más cómputo en el tiempo de prueba, es decir, longitudes de razonamiento más largas en LRM, resulta en un peor rendimiento, exhibiendo una relación de escalado inverso entre más escala y precisión.
Síguenos en @ritualdigest para más información sobre todo lo relacionado con la investigación de Crypto x AI, y en @ritualnet para aprender más sobre lo que Ritual está construyendo.
3.75K