ключевые темы для изучения того, как работают llms, все, что нужно, это < 2 года, если у вас есть база в компьютерных науках > токенизация и эмбеддинги > позиционные эмбеддинги (абсолютные, rope, alibi) > самовнимание и многоголовое внимание > трансформеры > qkv > параметры выборки: температура, top-k, top-p > кэш kv (и почему вывод быстрый) > бесконечное внимание и скользящее окно (приемы для длинного контекста) > смесь экспертов (слои маршрутизации moe) > сгруппированное внимание запросов > нормализация и активации > цели предобучения (причинное, маскированное и т.д.) > дообучение против настройки по инструкциям против rlhf > законы масштабирования и кривые емкости модели бонусные темы: > квантизация - qat против ptq (ggufs, awq и т.д.) > стеки обучения против вывода (deepspeed, vllm и т.д.) > генерация синтетических данных