Дуже крутий блог від @character_ai занурення в те, як вони тренували свою фірмову модель Kaiju (13B, 34B, 110B), перш ніж перейти на модель OSS, і спойлер: на ньому всюди написано Noam Shazeer. Більшість варіантів дизайну моделей (MQA, SWA, KV Cache, Quantization) не призначені для оптимізації під «еталон AGI» (згадайте MMLU), оскільки це не те, для чого люди будуть використовувати модель, а натомість хороша швидкість подачі. Тим не менш, вони включають код у передтренувальний мікс і роблять відпал на високоякісних «еталонних» даних. Одна дивовижна річ полягає в тому, що ці моделі не є MoEs, незважаючи на те, що люди, які працювали над персонажами в той час, як @stephenroller або Ноам, раніше працювали над MoE. Ось кілька оптимізацій, які вони зробили -> MuP-подібне масштабування -> MQA + SWA -> Скрізь затискач для контролю активації, не впевнений, м'який він чи жорсткий? -> Спільне використання кешу KV -> Функція активації Relu^2 -> ФСДП + ТП + СП -> градієнтний зв'язок Int6 - > Quantization Aware Training (QAT) з такими речами, як «bungee_scalar», щоб отримати стабільний рецепт для менших моделей. KV Cache і forward pass знаходяться в int8, градієнт і активація - в bf16, master weight і grad acc в fp32.