Играю с обучением крошечной модели диффузии текста на уровне символов с 11 миллионами параметров! Это в процессе, но код в настоящее время является сильно модифицированной реализацией nanochat gpt (чтобы изменить автогрессивное декодирование на диффузию) и обучен на наборе данных Tiny Shakespeare. Наивная реализация графика маскирования имеет равномерную вероятность маскирования для каждого токена на каждой итерации. Новые подходы маскируют блоками слева направо, что улучшает качество вывода и позволяет повторно использовать некоторый KVCache. Я понял, что на самом деле можно применять маскирование любым произвольным образом в процессе генерации. Ниже вы можете увидеть, что я применил маскирование на основе правил Игры в жизнь Конвея. Интересно, есть ли какие-либо необычные стратегии маскирования, подобные этой, которые приносят пользу. В любом случае, это очень интересный и завораживающий способ искажать и деформировать текст.