Resultados del modelo de recursión diminuta (TRM) en ARC-AGI - ARC-AGI-1: 40%, 1,76 $/tarea - ARC-AGI-2: 6,2 %, 2,10 $/tarea Gracias a @jm_alexia por contribuir con TRM, una investigación exhaustiva, de código abierto y bien escrita para la comunidad basada en HRM de @makingAGI
Gracias a @k_schuerholt por reproducir estos resultados para el Premio ARC, de los cuales se basaron en su análisis anterior de HRM Nuestros puntos de control de modelos reproducidos y las instrucciones de reproducción están disponibles en @huggingface
Nuestras notas: - TRM tiene un tiempo de ejecución más alto que HRM aunque es más pequeño. Nuestra hipótesis es que esto se debe a la propagación hacia atrás que ocurre en todos los pasos, mientras que HRM solo hizo pasos parciales Pregunta abierta: ¿Es mejor TRM porque es más inteligente? ¿O porque entrena durante más tiempo? Si usara computación fija para ambos, ¿el rendimiento sería el mismo?
- ¿Es TRM similar al número de aumentos como lo fue HRM? - Cambiar de capas lineales a atención es interesante, la atención se desempeñó peor en una tarea más pequeña. ¿Por qué? Puede ser computacionalmente menos eficiente, pero ¿por qué es mucho peor en Maze?
Nuestro llamado a la comunidad: Split Pre-entrenamiento e inferencia en TRM Actualmente, el preentrenamiento y la inferencia están acoplados en TRM. Los lotes adicionales de tareas deben volver a entrenarse previamente. Este TRM aumentado probablemente podría ejecutarse en Kaggle para el Premio ARC 2025
Costos de reproducción: * ARC-AGI-1 Público: 9h 52m 6 * 2x8H100 * $8/hora = $157.86 * ARC-AGI-1 Semiprivado: 11h 23m* 2x8H100 * $8/hora = $176.38 * ARC-AGI-1 Público: 9h 35m * 3x8H100 * $8/hora = $216.58 * ARC-AGI-2 Semiprivado: 10h 30m * 3x8H100 * $8/hora = $252
259.43K