Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Новий Motif-2-12.7B (з Південної Кореї) має дійсно вражаючі оцінки, і вони знову приготували з оптимізацією архітектури/обладнання.
Моя улюблена частина полягає в тому, як вони використовували попередній Motif-2.6B для ініціалізації більшої моделі, використовуючи два різні методи для масштабування глибини та ширини моделі, що покращує ефективність токенів у порівнянні з навчанням з нуля. Вони також використовують власні напрацювання для поліпшення диференціальної уваги, яку вони використовували раніше, з груповим варіантом, щоб отримати більшу деталізацію в шумових і сигнальних головках (більше сигналу, менше шуму).
Тренується лише на 5,5T токенах, з "плануванням даних на основі навчальної програми" (не так багато інформації про це) + багато різних апаратних оптимізацій (деякі з них мають відкритий вихідний код, дивіться посилання нижче!) з паралельним Muon-Clip, ефективними ядрами для Polynorm та тренуванням FP8 з використанням torchtitan!
Вони також згадують, що Muon дозволяє використовувати більші розміри партії, і вони масштабуються до 80 МБ, що є досить високим показником для моделі такого розміру.
400 графічних процесорів H100 і ~272K годин GPU – це вражає для отримання такого рівня продуктивності imo

Найкращі
Рейтинг
Вибране

