Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Новий Motif-2-12.7B (з Південної Кореї) має дійсно вражаючі оцінки, і вони знову приготували з оптимізацією архітектури/обладнання. Моя улюблена частина полягає в тому, як вони використовували попередній Motif-2.6B для ініціалізації більшої моделі, використовуючи два різні методи для масштабування глибини та ширини моделі, що покращує ефективність токенів у порівнянні з навчанням з нуля. Вони також використовують власні напрацювання для поліпшення диференціальної уваги, яку вони використовували раніше, з груповим варіантом, щоб отримати більшу деталізацію в шумових і сигнальних головках (більше сигналу, менше шуму). Тренується лише на 5,5T токенах, з "плануванням даних на основі навчальної програми" (не так багато інформації про це) + багато різних апаратних оптимізацій (деякі з них мають відкритий вихідний код, дивіться посилання нижче!) з паралельним Muon-Clip, ефективними ядрами для Polynorm та тренуванням FP8 з використанням torchtitan! Вони також згадують, що Muon дозволяє використовувати більші розміри партії, і вони масштабуються до 80 МБ, що є досить високим показником для моделі такого розміру. 400 графічних процесорів H100 і ~272K годин GPU – це вражає для отримання такого рівня продуктивності imo

Найкращі

Рейтинг

Вибране