正在尝试训练一个小型的11M参数字符级文本扩散模型! 这还是一个正在进行中的项目,但代码目前是一个 heavily modified nanochat gpt 实现(将自回归解码更改为扩散),并在 Tiny Shakespeare 数据集上进行训练。 简单的掩码调度实现是对每个迭代中的每个标记使用均匀的掩码概率。更新的方法是从左到右以块状方式进行掩码,这提高了输出质量并允许一些 KVCache 重用。 我意识到在生成过程中实际上可以以任何任意方式应用掩码。下面你可以看到我根据康威的生命游戏的规则应用了掩码。 我想知道是否有任何不寻常的掩码策略可以带来好处。无论如何,这是一种非常有趣和迷人的方式来破坏和变形文本。