BERTは単なるテキスト拡散ステップです。(1/n) 言語拡散モデルについて初めて読んだとき、そのトレーニングの目的が、2018 年の BERT 以来行っているマスク言語モデリング (MLM) の一般化にすぎないことに驚きました。 私が最初に考えたのは、「テキスト生成を行うためにBERTのようなモデルを微調整できないか」ということでした。