BERT é apenas um único passo de difusão de texto! (1/n) Quando li pela primeira vez sobre modelos de difusão de linguagem, fiquei surpreso ao descobrir que o seu objetivo de treinamento era apenas uma generalização da modelagem de linguagem mascarada (MLM), algo que temos feito desde o BERT de 2018. O primeiro pensamento que tive foi: "podemos ajustar um modelo semelhante ao BERT para fazer geração de texto?"