Nový článek v Nature Computational Science představuje architekturu analogových in-memory computingů (IMC) pro transformátory, díky které by LLM mohly běžet až 100x rychleji a 10 000x energeticky úsporněji než dnešní GPU. Zdroj:
Úzkým hrdlem v LLM není jen matematika; je to pohyb paměti. Každý nový token nutí GPU přesouvat masivní KV-cache mezi pamětí s vysokou šířkou pásma a SRAM. Toto neustálé přecházení tam a zpět spaluje energii a zvyšuje latenci. Tento nový design převrací scénář. Pomocí pamětí buněk se ziskem na základě poplatku architektura ukládá projekce tokenů a vypočítává bodové produkty na stejném místě, čímž eliminuje nekonečné přehazování dat.
Klíčové výsledky: ↳ Zrychlení až o 7 000 × vs Jetson Nano, 300× vs RTX 4090, 100× vs H100 ↳ Až o 90 000 × nižší spotřeba energie ve srovnání s GPU ↳ Přesnost na úrovni GPT-2 dosažená bez nutnosti přeškolování od nuly ↳ Hardwarově efektivní pozornost posuvného okna, která se škáluje Pokud se to rozšíří, díváme se na svět, kde Heavy LLM nepotřebují k dýchání hyperscalerová datová centra. Místo toho by mohly běžet lokálně na okrajových zařízeních, noteboocích, jako jsou uzly Fizz, a dokonce i na hardwaru IoT, což poskytuje rychlá, levná a nízkoenergetická řešení. Revoluce v oblasti umělé inteligence nebude jen o chytřejších algoritmech. Bude také o nové fyzice počítačů. Představte si, že GPT-5 běží offline, za zlomek dnešních nákladů na energii.
3,02K