BERT chỉ là một bước khuếch tán văn bản đơn lẻ! (1/n) Khi tôi lần đầu tiên đọc về các mô hình khuếch tán ngôn ngữ, tôi đã ngạc nhiên khi phát hiện ra rằng mục tiêu đào tạo của chúng chỉ là một sự tổng quát của mô hình ngôn ngữ bị che khuất (MLM), điều mà chúng ta đã làm từ BERT vào năm 2018. Suy nghĩ đầu tiên của tôi là, "liệu chúng ta có thể tinh chỉnh một mô hình giống BERT để thực hiện việc tạo văn bản không?"