Um novo artigo na Nature Computational Science apresenta uma arquitetura analógica de computação em memória (IMC) para transformadores que pode fazer com que os LLMs funcionem até 100 vezes mais rápido e 10.000 vezes mais eficientes em termos de energia do que as GPUs atuais. Fonte:
O gargalo nos LLMs não é apenas matemática; é movimento de memória. Cada novo token força as GPUs a embaralhar caches KV massivos entre memória de alta largura de banda e SRAM. Esse vaivém constante queima energia e adiciona latência. Este novo design inverte o roteiro. Usando memórias de célula de ganho baseadas em carga, a arquitetura armazena projeções de token e calcula produtos escalares no mesmo lugar, eliminando o embaralhamento interminável de dados.
Principais resultados: ↳ Até 7.000× de aceleração vs Jetson Nano, 300× vs RTX 4090, 100× vs H100 ↳ Até 90.000× menos uso de energia em comparação com GPUs ↳ Precisão de nível GPT-2 alcançada sem retreinamento do zero ↳ Atenção de janela deslizante eficiente em hardware que escala Se isso for dimensionado, estamos olhando para um mundo onde os LLMs pesados não precisam de data centers de hiperescaladores para respirar. Em vez disso, eles podem ser executados localmente em dispositivos de borda, laptops como nós Fizz e até hardware IoT, fornecendo soluções rápidas, baratas e de baixo consumo de energia. A revolução da IA não será apenas sobre algoritmos mais inteligentes. Também será sobre a nova física da computação. Imagine o GPT-5 rodando offline, por uma fração dos custos de energia atuais.
986