Nowa praca w Nature Computational Science wprowadza analogową architekturę obliczeń w pamięci (IMC) dla transformatorów, która może sprawić, że LLM-y będą działać do 100 razy szybciej i 10 000 razy bardziej energooszczędnie niż dzisiejsze GPU. Źródło:
Wąskie gardło w LLM-ach to nie tylko matematyka; to ruch pamięci. Każdy nowy token zmusza GPU do przestawiania ogromnych pamięci KV między pamięcią o wysokiej przepustowości a SRAM. Ta ciągła wymiana pochłania energię i zwiększa opóźnienia. Ten nowy projekt zmienia zasady gry. Wykorzystując pamięci oparte na zysku z komórek ładunkowych, architektura zarówno przechowuje projekcje tokenów, jak i oblicza iloczyny skalarne w tym samym miejscu, eliminując niekończące się przestawianie danych.
Kluczowe wyniki: ↳ Do 7,000× przyspieszenia w porównaniu do Jetson Nano, 300× w porównaniu do RTX 4090, 100× w porównaniu do H100 ↳ Do 90,000× niższe zużycie energii w porównaniu do GPU ↳ Dokładność na poziomie GPT-2 osiągnięta bez ponownego trenowania od zera ↳ Efektywna pod względem sprzętowym uwaga z przesuwanym oknem, która się skaluje Jeśli to się rozwinie, będziemy mieli do czynienia ze światem, w którym ciężkie LLM nie będą potrzebować centrów danych hyperscalerów, aby funkcjonować. Zamiast tego mogłyby działać lokalnie na urządzeniach brzegowych, laptopach takich jak węzły Fizz, a nawet na sprzęcie IoT, oferując szybkie, tanie i niskoprądowe rozwiązania. Rewolucja AI nie będzie dotyczyć tylko mądrzejszych algorytmów. Będzie również dotyczyć nowej fizyki obliczeń. Wyobraź sobie GPT-5 działającego offline, przy ułamku dzisiejszych kosztów energii.
991