Нова стаття в Nature Computational Science представляє архітектуру аналогових обчислень у пам'яті (IMC) для трансформаторів, яка може змусити LLM працювати в 100 разів швидше та в 10 000 разів енергоефективніше, ніж сучасні графічні процесори. Джерело:
Вузьким місцем у LLM є не лише математика; Це рух пам'яті. Кожен новий токен змушує графічні процесори перемішувати масивні KV-кеші між пам'яттю з високою пропускною здатністю та SRAM. Ця постійна рухливість туди-сюди спалює енергію та збільшує затримку. Цей новий дизайн перевертає сценарій. Використовуючи коміркову пам'ять на основі заряду, архітектура не тільки зберігає проекції токенів, але й обчислює точкові добутки в одному місці, усуваючи нескінченне перемішування даних.
Ключові результати: ↳ До 7 000× прискорення проти Jetson Nano, 300× проти RTX 4090, 100× проти H100 ↳ До 90 000× менше споживання енергії в порівнянні з графічними процесорами ↳ Точність рівня GPT-2 досягнута без перенавчання з нуля ↳ Апаратно-ефективне розсувне вікно, яке масштабується Якщо це масштабується, ми дивимося на світ, де важким LLM не потрібні гіперскейлерні дата-центри, щоб дихати. Натомість вони можуть працювати локально на периферійних пристроях, ноутбуках, таких як вузли Fizz, і навіть на обладнанні IoT, забезпечуючи швидкі, дешеві та енергозберігаючі рішення. Революція штучного інтелекту стосуватиметься не лише розумніших алгоритмів. Також йтиметься про нову фізику обчислень. Уявіть, що GPT-5 працює в автономному режимі за незначну частину сьогоднішніх витрат на енергію.
2,31K