Leuke, korte post die illustreert hoe eenvoudig tekst (discrete) diffusie kan zijn. Diffusie (d.w.z. parallel, iteratieve denoising, top) is het wijdverspreide generatieve paradigma in beeld/video, maar autoregressie (d.w.z. van links naar rechts onder) is het dominante paradigma in tekst. Voor audio heb ik een beetje van beide gezien. Veel diffusie papers lijken een beetje dicht, maar als je de wiskundige formalismen wegstrip, houd je eenvoudige baseline-algoritmen over, bijv. iets dat veel dichter bij flow matching in continu is, of iets als dit in discrete. Het is je vanilla transformer maar met bi-directionele aandacht, waarbij je iteratief alle tokens in je "tokens canvas" opnieuw monster en opnieuw maskeert op basis van een ruis schema totdat je het uiteindelijke monster op de laatste stap krijgt. (Bi-directionele aandacht is veel krachtiger, en je krijgt veel sterkere autoregressieve taalmodellen als je ermee traint, helaas maakt het trainen veel duurder omdat je nu niet meer kunt paralleliseren over de sequentiedimensie). Dus autoregressie doet een `.append(token)` aan het tokens canvas terwijl het alleen achterwaarts aandacht geeft, terwijl diffusie het hele tokens canvas ververst met een `.setitem(idx, token)` terwijl het bidirectioneel aandacht geeft. Menselijk denken voelt naief een beetje meer als autoregressie, maar het is moeilijk te zeggen dat er niet meer diffusie-achtige componenten zijn in een of andere latente ruimte van denken. Het lijkt heel goed mogelijk dat je verder tussen hen kunt interpoleren, of ze verder kunt generaliseren. En het is een component van de LLM-stack die nog steeds een beetje vervangbaar aanvoelt. Nu moet ik de drang weerstaan om af te dwalen naar het trainen van nanochat met diffusie.