¡BERT es solo un paso de difusión de texto único! (1/n) Cuando leí por primera vez sobre los modelos de difusión de lenguaje, me sorprendió descubrir que su objetivo de entrenamiento era solo una generalización del modelado de lenguaje enmascarado (MLM), algo que hemos estado haciendo desde BERT en 2018. El primer pensamiento que tuve fue: "¿podemos ajustar un modelo similar a BERT para hacer generación de texto?"