一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

《自然計算科學》上的一篇新論文介紹了一種類比內存計算（IMC）架構，用於變壓器，這可能使大型語言模型的運行速度提高至當前GPU的100倍，並且能效提高至10,000倍。來源：

LLM 的瓶頸不僅僅是數學；而是記憶體的移動。每個新的標記都迫使 GPU 在高帶寬記憶體和 SRAM 之間來回移動大量的 KV 快取。這種不斷的來回消耗能量並增加延遲。這種新設計顛覆了傳統。使用基於電荷的增益單元記憶體，該架構同時存儲標記投影並計算點積，消除了無盡的數據移動。

關鍵結果： ↳ 與 Jetson Nano 相比，速度提升高達 7,000 倍，與 RTX 4090 相比提升 300 倍，與 H100 相比提升 100 倍 ↳ 與 GPU 相比，能源使用降低高達 90,000 倍 ↳ 在不從頭重新訓練的情況下達到 GPT-2 級別的準確性 ↳ 硬體高效的滑動窗口注意力，具備可擴展性如果這能擴展，我們將看到一個重型 LLM 不再需要超大規模數據中心來運行的世界。相反，它們可以在邊緣設備、本地筆記本電腦（如 Fizz 節點）甚至 IoT 硬體上運行，提供快速、便宜且低功耗的解決方案。 AI 革命不僅僅是更智能的算法。它還將關乎計算的新物理學。想像一下 GPT-5 離線運行，耗能僅為當前的一小部分。

3.11K