BERT – це лише один етап розповсюдження тексту! (1/п) Коли я вперше прочитав про моделі дифузії мови, я був здивований, виявивши, що їхньою навчальною метою було просто узагальнення моделювання маскованої мови (MLM), чим ми займаємося з часів BERT з 2018 року. Перша думка, яка у мене виникла: «Чи можемо ми точно налаштувати BERT-подібну модель для генерації тексту?».