Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un nuovo articolo su Nature Computational Science introduce un'architettura di calcolo in memoria analogica (IMC) per i trasformatori che potrebbe far funzionare i LLM fino a 100 volte più velocemente e 10.000 volte più efficienti in termini energetici rispetto alle GPU odierne.
Fonte:

Il collo di bottiglia negli LLM non è solo matematica; è il movimento della memoria.
Ogni nuovo token costringe le GPU a mescolare enormi cache KV tra memoria ad alta larghezza di banda e SRAM. Questo continuo andirivieni consuma energia e aggiunge latenza.
Questo nuovo design capovolge la situazione. Utilizzando memorie a celle di guadagno basate su carica, l'architettura memorizza sia le proiezioni dei token che calcola i prodotti scalari nello stesso luogo, eliminando l'incessante mescolamento dei dati.

Risultati chiave:
↳ Fino a 7.000× di velocità rispetto a Jetson Nano, 300× rispetto a RTX 4090, 100× rispetto a H100
↳ Fino a 90.000× di minore consumo energetico rispetto alle GPU
↳ Precisione a livello di GPT-2 raggiunta senza riaddestramento da zero
↳ Attenzione a finestra scorrevole efficiente in termini di hardware che scala
Se questo scala, stiamo guardando a un mondo in cui i Heavy LLM non hanno bisogno di data center hyperscaler per funzionare. Invece, potrebbero funzionare localmente su dispositivi edge, laptop come i nodi Fizz e persino hardware IoT, fornendo soluzioni veloci, economiche e a basso consumo energetico.
La rivoluzione dell'IA non riguarderà solo algoritmi più intelligenti. Riguarderà anche la nuova fisica del calcolo. Immagina GPT-5 che funziona offline, a una frazione dei costi energetici odierni.
3,07K
Principali
Ranking
Preferiti