BERT ist nur ein einzelner Text-Diffusionsschritt! (1/n) Als ich zum ersten Mal von Sprachdiffusionsmodellen las, war ich überrascht zu erfahren, dass ihr Trainingsziel nur eine Verallgemeinerung des Masked Language Modeling (MLM) war, etwas, das wir seit BERT im Jahr 2018 tun. Der erste Gedanke, den ich hatte, war: „Können wir ein BERT-ähnliches Modell so anpassen, dass es Textgenerierung macht?“