熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
《自然計算科學》上的一篇新論文介紹了一種類比內存計算(IMC)架構,用於變壓器,這可能使大型語言模型的運行速度提高至當前GPU的100倍,並且能效提高至10,000倍。
來源:

LLM 的瓶頸不僅僅是數學;而是記憶體的移動。
每個新的標記都迫使 GPU 在高帶寬記憶體和 SRAM 之間來回移動大量的 KV 快取。這種不斷的來回消耗能量並增加延遲。
這種新設計顛覆了傳統。使用基於電荷的增益單元記憶體,該架構同時存儲標記投影並計算點積,消除了無盡的數據移動。

關鍵結果:
↳ 與 Jetson Nano 相比,速度提升高達 7,000 倍,與 RTX 4090 相比提升 300 倍,與 H100 相比提升 100 倍
↳ 與 GPU 相比,能源使用降低高達 90,000 倍
↳ 在不從頭重新訓練的情況下達到 GPT-2 級別的準確性
↳ 硬體高效的滑動窗口注意力,具備可擴展性
如果這能擴展,我們將看到一個重型 LLM 不再需要超大規模數據中心來運行的世界。相反,它們可以在邊緣設備、本地筆記本電腦(如 Fizz 節點)甚至 IoT 硬體上運行,提供快速、便宜且低功耗的解決方案。
AI 革命不僅僅是更智能的算法。它還將關乎計算的新物理學。想像一下 GPT-5 離線運行,耗能僅為當前的一小部分。
3.11K
熱門
排行
收藏