Nhật ký nghiên cứu Ngày 0: Ngày DiLoCo Tôi đã quyết định viết một luận án về đào tạo phân tán với giao tiếp thấp. Về cơ bản, làm thế nào chúng ta có thể đào tạo các mô hình lớn một cách hiệu quả trên các nút phân tán mà không bị ảnh hưởng nặng nề bởi độ trễ mạng và băng thông? (1/n)