BERT on vain yksi tekstin diffuusiovaihe! (1/n) Kun luin ensimmäisen kerran kielen diffuusiomalleista, yllätyin huomatessani, että niiden koulutustavoite oli vain naamioituneen kielen mallintamisen (MLM) yleistäminen, mitä olemme tehneet BERT:stä lähtien vuodesta 2018 lähtien. Ensimmäinen ajatukseni oli: "Voimmeko hienosäätää BERT:n kaltaista mallia tekstin tuottamiseen?"