Historien om dyp læring så lenge jeg kan huske:
År 1: kun mulig i grenselaboratorium
År 1.5: mulig i de fleste velutstyrte AI-grupper, inkludert akademia
År 2: mulig for de fleste hackere og hobbyister lokalt
År n: kjører bra på edge-enheter
Det eneste som varierer er tidslinjen. Og jeg har ingen forventning om at denne trenden vil endre seg.
Bare for moro skyld, her er hvordan 32 samtidige generasjoner med lang kontekst med Qwen3 Next 80B ser ut på en M3 Ultra.
Bruke den nye batchgenerasjonen i mlx-lm.
Kontekststørrelsen for hver er omtrent 5k tokens: