Nowy rekord prędkości treningu CIFAR-10: 94% w 1,99 sekundy na jednym A100 Poprzedni rekord: 2,59 sekundy (10 listopada 2024) Nowy rekordzista: Silnik odkryć algorytmicznych opracowany przez @hivergeai Dziennik zmian: - Muon: Wektoryzacja iteracji NS i zmniejszenie częstotliwości kroku 'normalizacji wag' 1/3
- Dane aug: Dodaj jitter kolorów i wektoryzuj losowe przycinanie - Kompilacja: Skompiluj xent fwd/bwd - Architektura: Zastąp GELU SiLU, użyj SVD do inicjalizacji pierwszej warstwy i użyj formatu channels_last z fp16 dla wszystkich konwolucji - Hparams: poprawki, w tym bsz 2000 -> 1536 i epoki 8 -> 7.6 2/3
- TTA: Pomiń dla łatwych przykładów - Ogrzewanie termiczne: Śpij przez 8s między uruchomieniami (wpływa tylko na średni czas, a nie czas rekordu) Uwaga: Autorzy zgłosili czas 2.02 sekundy. Moja reprodukcja (torch 2.7.0; sprzęt widoczny poniżej) miała minimalny czas 1.99s. Kod: 3/3
81,85K