Bài viết ngắn gọn, hay minh họa cách mà sự khuếch tán văn bản (rời rạc) có thể đơn giản như thế nào. Khuếch tán (tức là, làm sạch song song, lặp lại, hàng đầu) là mô hình sinh tổng quát phổ biến trong hình ảnh/video, nhưng hồi quy tự động (tức là, đi từ trái sang phải dưới) là mô hình thống trị trong văn bản. Đối với âm thanh, tôi đã thấy một chút cả hai. Nhiều tài liệu về khuếch tán trông có vẻ dày đặc nhưng nếu bạn loại bỏ hình thức toán học, bạn sẽ có những thuật toán cơ bản đơn giản, ví dụ như cái gì đó gần gũi hơn với việc khớp dòng trong liên tục, hoặc cái gì đó như thế này trong rời rạc. Đó là transformer vani của bạn nhưng với sự chú ý hai chiều, nơi bạn lặp đi lặp lại việc lấy mẫu lại và che lại tất cả các token trong "bảng canvas token" của bạn dựa trên lịch trình tiếng ồn cho đến khi bạn có mẫu cuối cùng ở bước cuối cùng. (Sự chú ý hai chiều mạnh mẽ hơn nhiều, và bạn có được các mô hình ngôn ngữ hồi quy tự động mạnh mẽ hơn nếu bạn huấn luyện với nó, thật không may, điều này làm cho việc huấn luyện trở nên tốn kém hơn nhiều vì bây giờ bạn không thể song song hóa qua chiều chuỗi). Vì vậy, hồi quy tự động đang thực hiện một `.append(token)` vào bảng canvas token trong khi chỉ chú ý ngược lại, trong khi khuếch tán đang làm mới toàn bộ bảng canvas token với một `.setitem(idx, token)` trong khi chú ý hai chiều. Suy nghĩ của con người một cách ngây thơ cảm thấy giống như hồi quy tự động nhưng thật khó để nói rằng không có nhiều thành phần giống như khuếch tán trong một không gian tiềm ẩn của suy nghĩ. Có vẻ như có thể rằng bạn có thể nội suy thêm giữa chúng, hoặc tổng quát chúng xa hơn. Và đó là một thành phần của ngăn xếp LLM mà vẫn cảm thấy có phần linh hoạt.