新的 CIFAR-10 訓練速度紀錄:在一台 A100 上 1.99 秒達到 94% 之前的紀錄:2.59 秒(2024 年 11 月 10 日) 新的紀錄保持者:由 @hivergeai 開發的算法發現引擎 更新日誌: - Muon:向量化 NS iter 並減少 'normalize weights' 步驟的頻率 1/3
- 數據增強:添加顏色抖動並向量化隨機裁剪 - 編譯:編譯 xent 前向/後向 - 架構:用 SiLU 替換 GELU,對第一層初始化使用 SVD,並對所有卷積使用 fp16 的 channels_last 格式 - 超參數:調整包括 bsz 2000 -> 1536 和 epochs 8 -> 7.6 2/3
- TTA: 跳過簡單範例 - 熱限制: 在運行之間睡眠 8 秒(僅影響平均時間而不影響記錄時間) 注意: 作者報告的時間為 2.02 秒。我的重現(torch 2.7.0;硬體見下方)最小時間為 1.99 秒。 代碼: 3/3
81.85K