Nuovo record di velocità di addestramento CIFAR-10: 94% in 1,99 secondi su un A100 Record precedente: 2,59 secondi (10 novembre 2024) Nuovo detentore del record: motore di scoperta algoritmica sviluppato da @hivergeai Registro delle modifiche: - Muon: vettorizzare NS iter e ridurre la frequenza del passaggio 'normalizza pesi' 1/3
- Dati aug: Aggiungi jitter di colore e vettorizza il ritaglio casuale - Compilazione: Compila xent fwd/bwd - Architettura: Sostituisci GELU con SiLU, usa SVD per l'inizializzazione del primo strato e utilizza il formato channels_last con fp16 per tutti i conv - Hparams: modifiche tra cui bsz 2000 -> 1536 & epoche 8 -> 7.6 2/3
- TTA: Salta per esempi facili - Thermal throttling: Riposa per 8s tra le esecuzioni (influisce solo sulla media, non sul tempo record) Nota: Gli autori hanno riportato un tempo di 2.02 secondi. La mia riproduzione (torch 2.7.0; hardware visto qui sotto) ha avuto un tempo minimo di 1.99s. Codice: 3/3
81,85K