Очень классный блог от @character_ai, в котором рассказывается о том, как они обучали свою собственную модель Kaiju (13B, 34B, 110B), прежде чем перейти на OSS модель, и спойлер: на ней написано имя Ноама Шазира. Большинство решений по дизайну модели (MQA, SWA, KV Cache, Квантование) не направлены на оптимизацию для "AGI benchmark" (подумайте о MMLU), так как это не то, для чего люди будут использовать модель, а вместо этого для обеспечения хорошей скорости обслуживания. Тем не менее, они включают код в микс предобучения и проводят отжиг на высококачественных "дружественных к бенчмаркам" данных. Одним из удивительных моментов является то, что эти модели не являются MoE, несмотря на то, что люди, работавшие в character в то время, такие как @stephenroller или Ноам, ранее работали над MoE. Вот несколько оптимизаций, которые они сделали: -> Масштабирование, похожее на MuP -> MQA + SWA -> Ограничение везде для контроля активации, не уверен, мягкое это или жесткое? -> Совместное использование KV Cache -> Функция активации Relu^2 -> FSDP + TP + SP -> Общение градиентов Int6 -> Обучение с учетом квантования (QAT) с такими вещами, как "bungee_scalar", чтобы получить стабильный рецепт для меньших моделей. KV Cache и прямой проход в int8, градиент и активация в bf16, мастер-вес и градиентное накопление в fp32.