Nature Computational Science -lehdessä julkaistussa uudessa artikkelissa esitellään muuntajille analoginen muistinsisäinen tietojenkäsittelyarkkitehtuuri (IMC), joka voi saada LLM:t toimimaan jopa 100 kertaa nopeammin ja 10 000 kertaa energiatehokkaammin kuin nykyiset grafiikkasuorittimet. Lähde:
LLM:n pullonkaula ei ole vain matematiikka; se on muistin liikettä. Jokainen uusi token pakottaa GPU:t sekoittamaan massiivisia KV-välimuistia suuren kaistanleveyden muistin ja SRAM:n välillä. Tämä jatkuva edestakainen polttaa energiaa ja lisää latenssia. Tämä uusi muotoilu kääntää käsikirjoituksen. Latauspohjaisten vahvistussolumuistien avulla arkkitehtuuri sekä tallentaa token-projektiot että laskee pistetuotteet samaan paikkaan, mikä eliminoi loputtoman tietojen sekoittamisen.
Tärkeimmät tulokset: ↳ Jopa 7 000 × nopeus verrattuna Jetson Nanoon, 300× vs RTX 4090, 100× vs H100 ↳ Jopa 90 000 × pienempi energiankulutus verrattuna GPU:ihin ↳ GPT-2-tason tarkkuus saavutettu ilman uudelleenkoulutusta tyhjästä ↳ Laitteistotehokas liukuikkunan huomio, joka skaalautuu Jos tämä skaalautuu, katsomme maailmaa, jossa raskaat LLM:t eivät tarvitse hyperskaalautuvia datakeskuksia hengittämiseen. Sen sijaan ne voisivat toimia paikallisesti reunalaitteissa, kannettavissa tietokoneissa, kuten Fizz-solmuissa, ja jopa IoT-laitteistoissa, mikä tarjoaa nopeita, halpoja ja vähän virtaa kuluttavia ratkaisuja. Tekoälyvallankumouksessa ei ole kyse vain älykkäämmistä algoritmeista. Se käsittelee myös uutta laskennan fysiikkaa. Kuvittele, että GPT-5 toimii offline-tilassa murto-osalla nykypäivän energiakustannuksista.
984