热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
《自然计算科学》上的一篇新论文介绍了一种用于变换器的模拟内存计算(IMC)架构,这可能使大型语言模型的运行速度比今天的GPU快100倍,能效提高10,000倍。
来源:

LLM中的瓶颈不仅仅是数学;而是内存移动。
每个新令牌都迫使GPU在高带宽内存和SRAM之间来回移动巨大的KV缓存。这种不断的来回消耗能量并增加延迟。
这种新设计颠覆了传统。通过使用基于电荷的增益单元存储器,该架构在同一位置存储令牌投影并计算点积,从而消除了无休止的数据移动。

关键结果:
↳ 与 Jetson Nano 比,速度提升高达 7,000 倍,与 RTX 4090 比,速度提升 300 倍,与 H100 比,速度提升 100 倍
↳ 与 GPU 相比,能耗降低高达 90,000 倍
↳ 在不从头重新训练的情况下实现 GPT-2 级别的准确性
↳ 硬件高效的滑动窗口注意力机制,具有可扩展性
如果这一切能够扩展,我们将看到一个重型 LLM 不再需要超大规模数据中心来运作的世界。相反,它们可以在边缘设备、本地笔记本电脑(如 Fizz 节点)甚至 IoT 硬件上运行,提供快速、便宜且低功耗的解决方案。
人工智能革命不仅仅是关于更智能的算法。它还将涉及计算的新物理学。想象一下,GPT-5 在离线状态下运行,能耗仅为今天的一个小部分。
3.09K
热门
排行
收藏