Nature Computational Science に掲載される新しい論文では、LLM を現在の GPU よりも最大 100 倍高速に実行し、エネルギー効率を 10,000 倍向上させる可能性のあるトランスフォーマー用のアナログ インメモリ コンピューティング (IMC) アーキテクチャが紹介されています。 源:
LLM のボトルネックは数学だけではありません。それは記憶の動きです。 新しいトークンごとに、GPUは高帯域幅メモリとSRAMの間で大規模なKVキャッシュをシャッフルします。この絶え間ないやり取りはエネルギーを消費し、遅延を増加させます。 この新しいデザインは台本をひっくり返します。このアーキテクチャは、電荷ベースのゲイン セル メモリを使用して、トークン投影を保存し、内積を同じ場所に計算するため、無限のデータ シャッフルが不要になります。
主な結果: ↳ Jetson Nano に対して最大 7,000× のスピードアップ、RTX 4090 に対して 300×、H100 に対して 100× のスピードアップ ↳ GPUと比較して最大90,000×エネルギー使用量を削減 ↳ ゼロから再トレーニングすることなく GPT-2 レベルの精度を達成 ↳ ハードウェア効率の高いスライディングウィンドウアテンション これが拡張されれば、重い LLM が呼吸するためにハイパースケーラー データセンターを必要としない世界が見えてきます。代わりに、エッジデバイス、Fizzノードなどのラップトップ、さらにはIoTハードウェアでローカルに実行でき、高速、安価、低電力のソリューションを提供することができます。 AI 革命は、よりスマートなアルゴリズムだけではありません。また、コンピューティングの新しい物理学についても説明します。GPT-5 がオフラインで実行され、今日のエネルギー コストの数分の一で実行されることを想像してみてください。
3.1K