新的 CIFAR-10 训练速度记录:在一台 A100 上 1.99 秒达到 94% 之前的记录:2.59 秒(2024 年 11 月 10 日) 新的记录保持者:由 @hivergeai 开发的算法发现引擎 更新日志: - Muon:向量化 NS iter 并减少 'normalize weights' 步骤的频率 1/3
- 数据增强:添加颜色抖动并向量化随机裁剪 - 编译:编译 xent 前向/后向 - 架构:用 SiLU 替换 GELU,使用 SVD 进行第一层初始化,并对所有卷积使用 channels_last 格式和 fp16 - 超参数:调整包括 bsz 2000 -> 1536 和 epochs 8 -> 7.6 2/3
- TTA:跳过简单示例 - 热量限制:运行之间睡眠8秒(仅影响平均时间而不影响记录时间) 注意:作者报告的时间为2.02秒。我的复现(torch 2.7.0;硬件见下文)最小时间为1.99秒。 代码: 3/3
81.84K