BERT 只是一个单一的文本扩散步骤! (1/n) 当我第一次阅读关于语言扩散模型的内容时,我惊讶地发现它们的训练目标只是掩码语言建模(MLM)的一个概括,这是我们自 2018 年以来一直在做的事情。 我想到的第一个问题是:“我们能否微调一个类似 BERT 的模型来进行文本生成?”