Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ein neuer Artikel in Nature Computational Science stellt eine analoge In-Memory-Computing (IMC)-Architektur für Transformer vor, die es ermöglichen könnte, dass LLMs bis zu 100x schneller und 10.000x energieeffizienter laufen als die heutigen GPUs.
Quelle:

Der Engpass bei LLMs ist nicht nur die Mathematik; es ist die Bewegung des Speichers.
Jedes neue Token zwingt GPUs dazu, massive KV-Caches zwischen Hochgeschwindigkeitsspeicher und SRAM hin und her zu schieben. Dieses ständige Hin und Her verbraucht Energie und erhöht die Latenz.
Dieses neue Design ändert die Spielregeln. Durch die Verwendung von ladungsbasierten Verstärkungszellen-Speichern speichert die Architektur sowohl Token-Projektionen als auch berechnet Skalarprodukte am selben Ort, wodurch endloses Daten-Shuffling eliminiert wird.

Wesentliche Ergebnisse:
↳ Bis zu 7.000× Geschwindigkeitssteigerung im Vergleich zum Jetson Nano, 300× im Vergleich zur RTX 4090, 100× im Vergleich zur H100
↳ Bis zu 90.000× geringerer Energieverbrauch im Vergleich zu GPUs
↳ Genauigkeit auf GPT-2-Niveau erreicht, ohne von Grund auf neu zu trainieren
↳ Hardware-effiziente Sliding-Window-Attention, die skalierbar ist
Wenn sich das skalieren lässt, sehen wir eine Welt, in der schwere LLMs keine Hyperscaler-Rechenzentren mehr benötigen, um zu funktionieren. Stattdessen könnten sie lokal auf Edge-Geräten, Laptops wie Fizz-Knoten und sogar IoT-Hardware laufen und schnelle, kostengünstige und energieeffiziente Lösungen bieten.
Die KI-Revolution wird nicht nur um intelligentere Algorithmen gehen. Es wird auch um die neue Physik des Rechnens gehen. Stellen Sie sich vor, GPT-5 läuft offline, zu einem Bruchteil der heutigen Energiekosten.
1,23K
Top
Ranking
Favoriten