正在嘗試訓練一個小型的 11M 參數字符級文本擴散模型! 這是一個正在進行中的項目,但目前的代碼是對 nanochat gpt 實現的重度修改版(將自回歸解碼更改為擴散),並且是基於 Tiny Shakespeare 數據集進行訓練的。 簡單的遮罩計劃實現是對每個迭代中的每個標記使用均勻的遮罩概率。更新的方法是從左到右以塊狀進行遮罩,這樣可以提高輸出質量並允許某些 KVCache 的重用。 我意識到在生成過程中實際上可以以任何任意方式應用遮罩。下面你可以看到我根據康威的生命遊戲的規則應用了遮罩。 我想知道是否有任何不尋常的遮罩策略可以提供好處。無論如何,這是一種非常有趣且令人著迷的方式來破壞和變形文本。