Hraju si s trénováním malého modelu difúze textu na úrovni znaků s parametry 11M! Jedná se o WIP, ale kód je v současné době silně upravenou implementací nanochat gpt (pro změnu z autoregresního dekódování na difúzi) a je natrénován na datové sadě Tiny Shakespeare. Naivní implementace plánu maskování spočívá v tom, že pro každý token pro každou iteraci existuje jednotná pravděpodobnost maskování. Novější přístupy maskují blokové bloky zleva doprava, což zlepšuje kvalitu výstupu a umožňuje opakované použití KVCache. Uvědomil jsem si, že maskování můžete během procesu generování použít libovolným způsobem. Níže můžete vidět, že jsem použil maskování na základě pravidel Conwayovy Hry života. Zajímalo by mě, jestli existují nějaké neobvyklé maskovací strategie, jako je tato, které poskytují výhody. Bez ohledu na to je to velmi zajímavý a fascinující způsob, jak poškodit a deformovat text.