Um novo artigo na Nature Computational Science apresenta uma arquitetura de computação em memória analógica (IMC) para transformadores que pode fazer com que os LLMs funcionem até 100x mais rápido e 10.000x mais eficientes em termos de energia do que as GPUs de hoje. Fonte:
O gargalo nos LLMs não é apenas matemática; é o movimento da memória. Cada novo token força as GPUs a embaralhar enormes caches KV entre memória de alta largura de banda e SRAM. Esse constante vai-e-vem consome energia e adiciona latência. Este novo design muda a narrativa. Usando memórias de células de ganho baseadas em carga, a arquitetura armazena projeções de tokens e calcula produtos escalares no mesmo lugar, eliminando o interminável embaralhamento de dados.
Resultados principais: ↳ Até 7.000× de aumento de velocidade em comparação com o Jetson Nano, 300× em comparação com o RTX 4090, 100× em comparação com o H100 ↳ Até 90.000× menos consumo de energia em comparação com GPUs ↳ Precisão ao nível do GPT-2 alcançada sem re-treinamento do zero ↳ Atenção de janela deslizante eficiente em termos de hardware que escala Se isso escalar, estaremos olhando para um mundo onde LLMs pesados não precisam de centros de dados hyperscaler para funcionar. Em vez disso, poderiam operar localmente em dispositivos de borda, laptops como nós Fizz, e até mesmo hardware IoT, fornecendo soluções rápidas, baratas e de baixo consumo de energia. A revolução da IA não será apenas sobre algoritmos mais inteligentes. Também será sobre a nova física da computação. Imagine o GPT-5 funcionando offline, a uma fração dos custos de energia de hoje.
707