O BERT é apenas uma etapa única de difusão de texto! (1/n) Quando li pela primeira vez sobre modelos de difusão de linguagem, fiquei surpreso ao descobrir que seu objetivo de treinamento era apenas uma generalização da modelagem de linguagem mascarada (MLM), algo que fazemos desde o BERT de 2018. O primeiro pensamento que tive foi: "podemos ajustar um modelo semelhante ao BERT para fazer a geração de texto?"