Un nuevo artículo en Nature Computational Science presenta una arquitectura analógica de computación en memoria (IMC) para transformadores que podría hacer que los LLM funcionen hasta 100 veces más rápido y 10,000 veces más eficientes energéticamente que las GPU actuales. Fuente:
El cuello de botella en los LLM no son solo matemáticas; es movimiento de memoria. Cada nuevo token obliga a las GPU a barajar cachés KV masivos entre la memoria de gran ancho de banda y la SRAM. Ese constante ir y venir quema energía y agrega latencia. Este nuevo diseño cambia el guión. Utilizando memorias de celdas de ganancia basadas en carga, la arquitectura almacena proyecciones de tokens y calcula productos de puntos en el mismo lugar, eliminando la interminable mezcla de datos.
Resultados clave: ↳ Hasta 7,000× de aceleración frente a Jetson Nano, 300× frente a RTX 4090, 100× frente a H100 ↳ Hasta un 90.000× menos de consumo de energía en comparación con las GPU ↳ Precisión de nivel GPT-2 lograda sin volver a entrenar desde cero ↳ Atención de ventana deslizante eficiente en hardware que escala Si esto escala, estamos viendo un mundo en el que los LLM pesados no necesitan centros de datos de hiperescaladores para respirar. En cambio, podrían ejecutarse localmente en dispositivos de borde, computadoras portátiles como nodos Fizz e incluso hardware de IoT, proporcionando soluciones rápidas, baratas y de bajo consumo. La revolución de la IA no se tratará solo de algoritmos más inteligentes. También tratará sobre la nueva física de la computación. Imagine GPT-5 funcionando sin conexión, a una fracción de los costos de energía actuales.
1.66K