《自然計算科學》上的一篇新論文介紹了一種類比內存計算(IMC)架構,用於變壓器,這可能使大型語言模型的運行速度提高至當前GPU的100倍,並且能效提高至10,000倍。 來源:
LLM 的瓶頸不僅僅是數學;而是記憶體的移動。 每個新的標記都迫使 GPU 在高帶寬記憶體和 SRAM 之間來回移動大量的 KV 快取。這種不斷的來回消耗能量並增加延遲。 這種新設計顛覆了傳統。使用基於電荷的增益單元記憶體,該架構同時存儲標記投影並計算點積,消除了無盡的數據移動。
關鍵結果: ↳ 與 Jetson Nano 相比,速度提升高達 7,000 倍,與 RTX 4090 相比提升 300 倍,與 H100 相比提升 100 倍 ↳ 與 GPU 相比,能源使用降低高達 90,000 倍 ↳ 在不從頭重新訓練的情況下達到 GPT-2 級別的準確性 ↳ 硬體高效的滑動窗口注意力,具備可擴展性 如果這能擴展,我們將看到一個重型 LLM 不再需要超大規模數據中心來運行的世界。相反,它們可以在邊緣設備、本地筆記本電腦(如 Fizz 節點)甚至 IoT 硬體上運行,提供快速、便宜且低功耗的解決方案。 AI 革命不僅僅是更智能的算法。它還將關乎計算的新物理學。想像一下 GPT-5 離線運行,耗能僅為當前的一小部分。
3.11K