Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nowa praca w Nature Computational Science wprowadza analogową architekturę obliczeń w pamięci (IMC) dla transformatorów, która może sprawić, że LLM-y będą działać do 100 razy szybciej i 10 000 razy bardziej energooszczędnie niż dzisiejsze GPU.
Źródło:

Wąskie gardło w LLM-ach to nie tylko matematyka; to ruch pamięci.
Każdy nowy token zmusza GPU do przestawiania ogromnych pamięci KV między pamięcią o wysokiej przepustowości a SRAM. Ta ciągła wymiana pochłania energię i zwiększa opóźnienia.
Ten nowy projekt zmienia zasady gry. Wykorzystując pamięci oparte na zysku z komórek ładunkowych, architektura zarówno przechowuje projekcje tokenów, jak i oblicza iloczyny skalarne w tym samym miejscu, eliminując niekończące się przestawianie danych.

Kluczowe wyniki:
↳ Do 7,000× przyspieszenia w porównaniu do Jetson Nano, 300× w porównaniu do RTX 4090, 100× w porównaniu do H100
↳ Do 90,000× niższe zużycie energii w porównaniu do GPU
↳ Dokładność na poziomie GPT-2 osiągnięta bez ponownego trenowania od zera
↳ Efektywna pod względem sprzętowym uwaga z przesuwanym oknem, która się skaluje
Jeśli to się rozwinie, będziemy mieli do czynienia ze światem, w którym ciężkie LLM nie będą potrzebować centrów danych hyperscalerów, aby funkcjonować. Zamiast tego mogłyby działać lokalnie na urządzeniach brzegowych, laptopach takich jak węzły Fizz, a nawet na sprzęcie IoT, oferując szybkie, tanie i niskoprądowe rozwiązania.
Rewolucja AI nie będzie dotyczyć tylko mądrzejszych algorytmów. Będzie również dotyczyć nowej fizyki obliczeń. Wyobraź sobie GPT-5 działającego offline, przy ułamku dzisiejszych kosztów energii.
991
Najlepsze
Ranking
Ulubione