Експериментуючи з навчанням крихітної моделі розповсюдження тексту на рівні символів з 11 мільйонами параметрів! Це WIP, але код в даний час є сильно модифікованою реалізацією наночату gpt (для переходу від авторегресійного декодування до дифузії) і навчений на наборі даних Tiny Shakespeare. Наївна реалізація графіка маскування полягає в тому, що вона має єдину ймовірність маскування для кожного токена для кожної ітерації. Новіші підходи маскують блоками зліва направо, що покращує якість виводу та дозволяє повторно використовувати KVCache. Я зрозумів, що насправді маскування можна застосовувати будь-яким довільним способом під час процесу генерації. Нижче ви можете побачити, як я застосував маскування на основі правил «Гри життя» Конвея. Цікаво, чи існують такі незвичайні стратегії маскування, які дають переваги. Незважаючи на це, це дуже цікавий і заворожуючий спосіб спотворити і спотворити текст.