小さな11Mパラメータの文字レベルのテキスト拡散モデルをトレーニングして遊んでいます! これはWIPですが、コードは現在、大幅に変更されたnanochat gpt実装(自己回帰デコードから拡散に変更)であり、Tiny Shakespeareデータセットでトレーニングされています。 マスキング スケジュールの単純な実装は、各イテレーションの各トークンに対して均一なマスキング確率を持つことです。新しいアプローチは、左から右のブロックチャンクでマスクし、出力品質を向上させ、KVCacheの再利用を可能にします。 生成プロセス中に、実際には任意の方法でマスキングを適用できることに気づきました。以下は、コンウェイのゲーム・オブ・ライフのルールに基づいてマスキングを適用したことを示しています。 このような効果をもたらす珍しいマスキング戦略はないのだろうか。いずれにせよ、これはテキストを破損したり変形させたりするための非常に興味深く魅惑的な方法です。