一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

《自然计算科学》上的一篇新论文介绍了一种用于变换器的模拟内存计算（IMC）架构，这可能使大型语言模型的运行速度比今天的GPU快100倍，能效提高10,000倍。来源：

LLM中的瓶颈不仅仅是数学；而是内存移动。每个新令牌都迫使GPU在高带宽内存和SRAM之间来回移动巨大的KV缓存。这种不断的来回消耗能量并增加延迟。这种新设计颠覆了传统。通过使用基于电荷的增益单元存储器，该架构在同一位置存储令牌投影并计算点积，从而消除了无休止的数据移动。

关键结果： ↳ 与 Jetson Nano 比，速度提升高达 7,000 倍，与 RTX 4090 比，速度提升 300 倍，与 H100 比，速度提升 100 倍 ↳ 与 GPU 相比，能耗降低高达 90,000 倍 ↳ 在不从头重新训练的情况下实现 GPT-2 级别的准确性 ↳ 硬件高效的滑动窗口注意力机制，具有可扩展性如果这一切能够扩展，我们将看到一个重型 LLM 不再需要超大规模数据中心来运作的世界。相反，它们可以在边缘设备、本地笔记本电脑（如 Fizz 节点）甚至 IoT 硬件上运行，提供快速、便宜且低功耗的解决方案。人工智能革命不仅仅是关于更智能的算法。它还将涉及计算的新物理学。想象一下，GPT-5 在离线状态下运行，能耗仅为今天的一个小部分。

3.09K