Rekor kecepatan latihan CIFAR-10 baru: 94% dalam 1,99 detik pada satu A100 Rekor sebelumnya: 2,59 detik (10 November 2024) Pemegang rekor baru: Mesin penemuan algoritmik yang dikembangkan oleh @hivergeai Log perubahan: - Muon: Vektorisasi NS iter dan kurangi frekuensi langkah 'normalisasi bobot' 1/3
- Data aug: Tambahkan jitter warna dan vektorisasi crop acak - Kompilasi: Kompilasi xent fwd/bwd - Arsitektur: Ganti GELU dengan SiLU, gunakan SVD untuk init lapisan pertama, dan gunakan format channels_last dengan fp16 untuk semua conv - Hparams: penyesuaian termasuk bsz 2000 -> 1536 & epochs 8 -> 7.6 2/3
- TTA: Lewati untuk contoh mudah - Pelambatan termal: Tidur selama 8 detik di antara lari (hanya memengaruhi waktu rata-rata bukan catatan) Catatan: Penulis melaporkan waktu 2,02 detik. Reproduksi saya (obor 2.7.0; perangkat keras terlihat di bawah) memiliki waktu min 1.99 detik. Kode: 3/3
81,89K