Un nuovo articolo su Nature Computational Science introduce un'architettura di calcolo in memoria analogica (IMC) per i trasformatori che potrebbe far funzionare i LLM fino a 100 volte più velocemente e 10.000 volte più efficienti in termini energetici rispetto alle GPU odierne. Fonte:
Il collo di bottiglia negli LLM non è solo matematica; è il movimento della memoria. Ogni nuovo token costringe le GPU a mescolare enormi cache KV tra memoria ad alta larghezza di banda e SRAM. Questo continuo andirivieni consuma energia e aggiunge latenza. Questo nuovo design capovolge la situazione. Utilizzando memorie a celle di guadagno basate su carica, l'architettura memorizza sia le proiezioni dei token che calcola i prodotti scalari nello stesso luogo, eliminando l'incessante mescolamento dei dati.
Risultati chiave: ↳ Fino a 7.000× di velocità rispetto a Jetson Nano, 300× rispetto a RTX 4090, 100× rispetto a H100 ↳ Fino a 90.000× di minore consumo energetico rispetto alle GPU ↳ Precisione a livello di GPT-2 raggiunta senza riaddestramento da zero ↳ Attenzione a finestra scorrevole efficiente in termini di hardware che scala Se questo scala, stiamo guardando a un mondo in cui i Heavy LLM non hanno bisogno di data center hyperscaler per funzionare. Invece, potrebbero funzionare localmente su dispositivi edge, laptop come i nodi Fizz e persino hardware IoT, fornendo soluzioni veloci, economiche e a basso consumo energetico. La rivoluzione dell'IA non riguarderà solo algoritmi più intelligenti. Riguarderà anche la nuova fisica del calcolo. Immagina GPT-5 che funziona offline, a una frazione dei costi energetici odierni.
3,07K