Pěkný, krátký příspěvek ilustrující, jak jednoduchá může být (diskrétní) difúze textu. Difúze (tj. paralelní, iterované odšumování, nahoře) je všudypřítomným generativním paradigmatem v obraze/videu, ale autoregrese (tj. jít zleva doprava dolů) je dominantním paradigmatem v textu. U zvuku jsem viděl trochu od obojího. Spousta difúzních článků vypadá trochu hutně, ale když odstraníte matematický formalismus, skončíte s jednoduchými základními algoritmy, např. něčím mnohem bližším flow matching ve spojitém nebo něčím podobným v diskrétním. Je to váš vanilla transformátor, ale s obousměrnou pozorností, kde iterativně převzorkujete a znovu maskujete všechny tokeny na "plátně tokenů" na základě plánu šumu, dokud nezískáte konečný vzorek v posledním kroku. (Obousměrná pozornost je mnohem silnější a pokud s ní trénujete, získáte mnohem silnější autoregresivní jazykové modely, bohužel to trénink hodně prodražuje, protože nyní nemůžete paralelizovat přes sekvenční dim). Autoregression tedy provádí '.append(token)' na plátno tokenů, zatímco difúze obnovuje celé plátno tokenu pomocí '.setitem(idx, token)' při obousměrné obsluze. Lidské myšlení naivně působí trochu více jako autoregrese, ale je těžké říci, že v nějakém latentním myšlenkovém prostoru není více složek podobných difúzi. Zdá se docela možné, že mezi nimi můžete dále interpolovat nebo je dále zobecňovat. A je to součást zásobníku LLM, která stále působí trochu zastupitelně. Teď musím odolat nutkání vrhnout se na trénink nanochatu s difúzí.