Să ne jucăm cu antrenamentul unui model mic de difuzie a textului la nivel de caracter de 11 milioane de parametri! Este un WIP, dar codul este în prezent o implementare nanochat gpt puternic modificată (pentru a trece de la decodare autoregresivă la difuzie) și antrenat pe setul de date Tiny Shakespeare. Implementarea naivă a unui program de mascare are o probabilitate uniformă de mascare pentru fiecare token pentru fiecare iterație. Abordările mai noi maschează în bucăți de bloc de la stânga la dreapta, ceea ce îmbunătățește calitatea ieșirii și permite o anumită reutilizare KVCache. Mi-am dat seama că poți aplica mascarea în orice mod arbitrar în timpul procesului de generare. Mai jos puteți vedea că am aplicat mascarea pe baza regulilor lui Conway's Game of Life. Mă întreb dacă există strategii neobișnuite de mascare ca aceasta care oferă beneficii. Indiferent, acesta este un mod foarte interesant și fascinant de a corupe și deforma textul.