Nieuwe CIFAR-10 trainingssnelheidsrecord: 94% in 1,99 seconden op één A100 Vorige record: 2,59 seconden (10 nov. 2024) Nieuwe recordhouder: Algoritmische ontdekkingsmotor ontwikkeld door @hivergeai Changelog: - Muon: Vectoriseer NS iter en verminder de frequentie van de stap 'normaliseer gewichten' 1/3
- Data aug: Voeg kleurjitter toe en vectoriseer willekeurige crop - Compilatie: Compileer xent fwd/bwd - Architectuur: Vervang GELU door SiLU, gebruik SVD voor initiatie van de eerste laag, en gebruik channels_last formaat met fp16 voor alle convs - Hparams: tweaks inclusief bsz 2000 -> 1536 & epochs 8 -> 7.6 2/3
- TTA: Overslaan voor eenvoudige voorbeelden - Thermische throttling: Slaap 8s tussen runs (beïnvloedt alleen het gemiddelde, niet de recordtijd) Opmerking: De auteurs rapporteerden een tijd van 2,02 seconden. Mijn reproductie (torch 2.7.0; hardware hieronder gezien) had een minimale tijd van 1,99s. Code: 3/3
81,82K