Leker med å trene en liten tekstdiffusjonsmodell på 11 millioner parametere på tegnnivå! Det er en WIP, men koden er for øyeblikket en sterkt modifisert nanochat gpt-implementering (for å endre fra autoregressiv dekoding til diffusjon) og trent på Tiny Shakespeare-datasettet. Den naive implementeringen av en maskeringsplan er å ha en ensartet maskeringssannsynlighet for hvert token for hver iterasjon. Nyere tilnærminger maskerer i blokkbiter fra venstre til høyre, noe som forbedrer utskriftskvaliteten og tillater litt KVCache-gjenbruk. Jeg innså at du faktisk kan bruke maskering på en hvilken som helst vilkårlig måte under genereringsprosessen. Nedenfor kan du se at jeg brukte maskering basert på reglene i Conway's Game of Life. Jeg lurer på om det er noen uvanlige maskeringsstrategier som dette som gir fordeler. Uansett er dette en veldig interessant og fascinerende måte å korrumpere og deformere tekst på.