Результаты модели малой рекурсии (TRM) на ARC-AGI - ARC-AGI-1: 40%, $1.76/задача - ARC-AGI-2: 6.2%, $2.10/задача Спасибо @jm_alexia за вклад в TRM, хорошо написанное, открытое и тщательное исследование для сообщества, основанное на HRM от @makingAGI
Спасибо @k_schuerholt за воспроизведение этих результатов для ARC Prize, которые были основаны на его предыдущем анализе HRM. Наши воспроизведенные контрольные точки модели и инструкции по воспроизведению доступны на @huggingface
Наши заметки: - TRM имеет более высокую производительность, чем HRM, хотя и меньше по размеру. Наша гипотеза заключается в том, что это связано с обратным распространением, происходящим на всех этапах, в то время как HRM выполнял только частичные шаги. Открытый вопрос: TRM лучше, потому что он умнее? Или потому что он обучается дольше? Если бы вы использовали фиксированные вычисления для обоих, была бы производительность одинаковой?
- Является ли TRM столь же устойчивым к количеству аугментаций, как это было с HRM? - Переход от линейных слоев к вниманию интересен, внимание показало худшие результаты на меньшей задаче. Почему? Возможно, это вычислительно менее эффективно, но почему оно так сильно уступает на Maze?
Наш призыв к сообществу: разделить предварительное обучение и вывод в TRM В настоящее время предварительное обучение и вывод связаны в TRM. Дополнительные партии задач необходимо предварительно обучить снова. Этот расширенный TRM, вероятно, сможет работать на Kaggle для ARC Prize 2025
Затраты на воспроизведение: * ARC-AGI-1 Публичный: 9ч 52м 6 * 2x8H100 * $8/час = $157.86 * ARC-AGI-1 Полу-приватный: 11ч 23м * 2x8H100 * $8/час = $176.38 * ARC-AGI-1 Публичный: 9ч 35м * 3x8H100 * $8/час = $216.58 * ARC-AGI-2 Полу-приватный: 10ч 30м * 3x8H100 * $8/час = $252
253,61K