Chơi đùa với việc huấn luyện một mô hình khuếch tán văn bản cấp ký tự nhỏ với 11 triệu tham số! Đây là một công việc đang tiến hành nhưng mã hiện tại là một phiên bản nanochat gpt đã được sửa đổi nhiều (để chuyển từ giải mã tự hồi tiếp sang khuếch tán) và được huấn luyện trên tập dữ liệu Tiny Shakespeare. Việc triển khai đơn giản của một lịch trình che giấu là có xác suất che giấu đồng nhất cho mỗi token trong mỗi lần lặp. Các phương pháp mới hơn che giấu theo từng khối từ trái sang phải, điều này cải thiện chất lượng đầu ra và cho phép tái sử dụng một số KVCache. Tôi nhận ra rằng bạn thực sự có thể áp dụng che giấu theo bất kỳ cách nào trong quá trình tạo ra. Dưới đây bạn có thể thấy tôi đã áp dụng che giấu dựa trên các quy tắc của Trò chơi Sống của Conway. Tôi tự hỏi liệu có bất kỳ chiến lược che giấu bất thường nào như thế này mang lại lợi ích không. Dù sao đi nữa, đây là một cách rất thú vị và mê hoặc để làm hỏng và biến dạng văn bản.