BERT är bara ett enda textspridningssteg! (1/n) När jag först läste om språkspridningsmodeller blev jag förvånad över att upptäcka att deras träningsmål bara var en generalisering av maskerad språkmodellering (MLM), något vi har gjort sedan BERT från 2018. Den första tanken jag hade var, "kan vi finjustera en BERT-liknande modell för textgenerering?"