Bermain-main dengan melatih model difusi teks tingkat karakter parameter 11M kecil! Ini adalah WIP tetapi kodenya saat ini merupakan implementasi nanochat gpt yang sangat dimodifikasi (untuk mengubah dari decoding autoregresif ke difusi) dan dilatih pada kumpulan data Tiny Shakespeare. Implementasi naif dari jadwal penyamaran memiliki probabilitas penyamaran yang seragam untuk setiap token untuk setiap iterasi. Pendekatan yang lebih baru menutupi potongan blok dari kiri ke kanan yang meningkatkan kualitas output dan memungkinkan beberapa penggunaan kembali KVCache. Saya menyadari bahwa Anda benar-benar dapat menerapkan masking dengan cara yang sewenang-wenang selama proses pembuatan. Di bawah ini Anda dapat melihat I menerapkan masking berdasarkan aturan Game of Life Conway. Saya ingin tahu apakah ada strategi masking yang tidak biasa seperti ini yang memberikan manfaat. Terlepas dari itu, ini adalah cara yang sangat menarik dan memukau untuk merusak dan mengubah bentuk teks.