Resultados do Modelo de Recursão Pequena (TRM) no ARC-AGI - ARC-AGI-1: 40%, $1.76/tarefa - ARC-AGI-2: 6.2%, $2.10/tarefa Obrigado a @jm_alexia por contribuir com o TRM, uma pesquisa bem escrita, de código aberto e completa para a comunidade, baseada no HRM de @makingAGI
Obrigado ao @k_schuerholt por reproduzir estes resultados para o Prémio ARC, que foram baseados na sua análise HRM anterior Os nossos pontos de verificação do modelo reproduzido e as instruções de reprodução estão disponíveis em @huggingface
Nossas notas: - O TRM tem um tempo de execução maior do que o HRM, mesmo sendo menor. Nossa hipótese é que isso se deve à retropropagação que ocorre em todos os passos, enquanto o HRM apenas realizava passos parciais. Pergunta em aberto: O TRM é melhor porque é mais inteligente? Ou porque treina por mais tempo? Se você usasse computação fixa para ambos, o desempenho seria o mesmo?
- O TRM é igualmente robusto em relação ao número de ampliações como o HRM foi? - A mudança de camadas lineares para atenção é interessante, a atenção teve um desempenho pior em uma tarefa menor. Por quê? Pode ser computacionalmente menos eficiente, mas por que é tão pior no Maze?
O nosso apelo para a comunidade: Separar o pré-treinamento e a inferência no TRM Atualmente, o pré-treinamento e a inferência estão acoplados no TRM. Lotes adicionais de tarefas precisam ser pré-treinados novamente. Este TRM aumentado provavelmente seria capaz de funcionar no Kaggle para o Prémio ARC 2025
Custos para reproduzir: * ARC-AGI-1 Público: 9h 52m 6 * 2x8H100 * $8/hora = $157.86 * ARC-AGI-1 Semi-privado: 11h 23m * 2x8H100 * $8/hora = $176.38 * ARC-AGI-1 Público: 9h 35m * 3x8H100 * $8/hora = $216.58 * ARC-AGI-2 Semi-privado: 10h 30m * 3x8H100 * $8/hora = $252
209,5K