Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новый Motif-2-12.7B (из Южной Кореи) действительно имеет впечатляющие результаты, и они снова поработали над оптимизацией архитектуры/аппаратного обеспечения.
Моя любимая часть заключается в том, как они использовали предыдущий Motif-2.6B для инициализации более крупной модели, применяя две разные техники для масштабирования глубины и ширины модели, что улучшает эффективность токенов по сравнению с обучением с нуля. Они также используют свою собственную работу для улучшения дифференциального внимания, которое они использовали ранее, с группированным вариантом для получения большей детализации в головах шума и сигнала (больше сигнала, меньше шума).
Обученный только на 5.5T токенов, с "осведомленным о курсе планированием данных" (хотя информации об этом не так много) + множеством различных оптимизаций аппаратного обеспечения (некоторые из них являются открытым исходным кодом, смотрите ссылки ниже!) с параллельным Muon-Clip, эффективными ядрами для Polynorm и обучением FP8 с использованием torchtitan!
Они также упоминают, что Muon позволяет использовать большие размеры пакетов, и они масштабируются до 80M GBS, что довольно много для модели такого размера.
400 H100 GPU и ~272K GPU-часов впечатляют для достижения такого уровня производительности, на мой взгляд.

Топ
Рейтинг
Избранное

