Kỷ lục tốc độ đào tạo CIFAR-10 mới: 94% trong 1.99 giây trên một A100 Kỷ lục trước: 2.59 giây (10 tháng 11 năm 2024) Người giữ kỷ lục mới: Công cụ khám phá thuật toán được phát triển bởi @hivergeai Nhật ký thay đổi: - Muon: Tối ưu hóa NS iter và giảm tần suất bước 'chuẩn hóa trọng số' 1/3
- Dữ liệu aug: Thêm màu jitter và vector hóa crop ngẫu nhiên - Biên dịch: Biên dịch xent fwd/bwd - Kiến trúc: Thay thế GELU bằng SiLU, sử dụng SVD cho khởi tạo lớp đầu tiên, và sử dụng định dạng channels_last với fp16 cho tất cả các conv - Hparams: điều chỉnh bao gồm bsz 2000 -> 1536 & epochs 8 -> 7.6 2/3
- TTA: Bỏ qua cho các ví dụ dễ - Thermal throttling: Ngủ 8 giây giữa các lần chạy (chỉ ảnh hưởng đến thời gian trung bình chứ không phải thời gian ghi nhận) Lưu ý: Các tác giả báo cáo thời gian là 2.02 giây. Sự tái hiện của tôi (torch 2.7.0; phần cứng như bên dưới) có thời gian tối thiểu là 1.99 giây. Mã: 3/3
81,83K