《自然计算科学》上的一篇新论文介绍了一种用于变换器的模拟内存计算(IMC)架构,这可能使大型语言模型的运行速度比今天的GPU快100倍,能效提高10,000倍。 来源:
LLM中的瓶颈不仅仅是数学;而是内存移动。 每个新令牌都迫使GPU在高带宽内存和SRAM之间来回移动巨大的KV缓存。这种不断的来回消耗能量并增加延迟。 这种新设计颠覆了传统。通过使用基于电荷的增益单元存储器,该架构在同一位置存储令牌投影并计算点积,从而消除了无休止的数据移动。
关键结果: ↳ 与 Jetson Nano 比,速度提升高达 7,000 倍,与 RTX 4090 比,速度提升 300 倍,与 H100 比,速度提升 100 倍 ↳ 与 GPU 相比,能耗降低高达 90,000 倍 ↳ 在不从头重新训练的情况下实现 GPT-2 级别的准确性 ↳ 硬件高效的滑动窗口注意力机制,具有可扩展性 如果这一切能够扩展,我们将看到一个重型 LLM 不再需要超大规模数据中心来运作的世界。相反,它们可以在边缘设备、本地笔记本电脑(如 Fizz 节点)甚至 IoT 硬件上运行,提供快速、便宜且低功耗的解决方案。 人工智能革命不仅仅是关于更智能的算法。它还将涉及计算的新物理学。想象一下,GPT-5 在离线状态下运行,能耗仅为今天的一个小部分。
3.09K