Новый рекорд скорости обучения CIFAR-10: 94% за 1.99 секунды на одном A100 Предыдущий рекорд: 2.59 секунды (10 ноября 2024 года) Новый рекордсмен: Алгоритмическая поисковая система, разработанная @hivergeai Изменения: - Muon: Векторизовать NS iter и уменьшить частоту шага 'нормализация весов' 1/3
- Данные увеличены: добавьте цветовую джиттеризацию и векторизуйте случайный обрез - Компиляция: компилируйте xent fwd/bwd - Архитектура: замените GELU на SiLU, используйте SVD для инициализации первого слоя и используйте формат channels_last с fp16 для всех сверток - Гиперпараметры: изменения, включая bsz 2000 -> 1536 и эпохи 8 -> 7.6 2/3
- TTA: Пропустить для простых примеров - Тепловое троттлирование: Спать 8 секунд между запусками (влияет только на среднее время, а не на рекордное) Примечание: Авторы сообщили о времени 2.02 секунды. Моя репродукция (torch 2.7.0; оборудование указано ниже) имела минимальное время 1.99с. Код: 3/3
81,83K