Một bài báo mới trên Nature Computational Science giới thiệu một kiến trúc tính toán trong bộ nhớ tương tự (IMC) cho các transformer, có thể giúp các LLM chạy nhanh hơn tới 100 lần và tiết kiệm năng lượng hơn 10,000 lần so với các GPU hiện nay. Nguồn:
Nút thắt trong LLM không chỉ là toán học; đó là sự di chuyển bộ nhớ. Mỗi token mới buộc các GPU phải xáo trộn các KV-cache khổng lồ giữa bộ nhớ băng thông cao và SRAM. Sự trao đổi liên tục này tiêu tốn năng lượng và làm tăng độ trễ. Thiết kế mới này đảo ngược kịch bản. Sử dụng bộ nhớ cell tăng cường dựa trên điện tích, kiến trúc này vừa lưu trữ các dự đoán token vừa tính toán tích chấm tại cùng một chỗ, loại bỏ việc xáo trộn dữ liệu vô tận.
Kết quả chính: ↳ Tăng tốc lên đến 7.000× so với Jetson Nano, 300× so với RTX 4090, 100× so với H100 ↳ Tiêu thụ năng lượng thấp hơn đến 90.000× so với GPU ↳ Độ chính xác đạt được ở mức GPT-2 mà không cần huấn luyện lại từ đầu ↳ Sự chú ý theo cửa sổ trượt hiệu quả về phần cứng có khả năng mở rộng Nếu điều này mở rộng, chúng ta đang nhìn vào một thế giới mà các LLM lớn không cần các trung tâm dữ liệu hyperscaler để hoạt động. Thay vào đó, chúng có thể chạy cục bộ trên các thiết bị biên, máy tính xách tay như các nút Fizz, và thậm chí phần cứng IoT, cung cấp các giải pháp nhanh, rẻ và tiêu thụ ít năng lượng. Cuộc cách mạng AI sẽ không chỉ là về các thuật toán thông minh hơn. Nó cũng sẽ liên quan đến vật lý mới của tính toán. Hãy tưởng tượng GPT-5 chạy ngoại tuyến, với một phần nhỏ chi phí năng lượng so với hôm nay.
991