Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ahmad

Дослідник штучного інтелекту та інженер-програміст із місією створити кластер графічних процесорів DGX B200

Покрокові інженерні проекти LLM Кожен проект = одна концепція, вивчена важким (тобто реальним) способом Токенізація та вбудовування > створюйте кодувальник байт-пари + тренуйте власний словник підслів > написати "візуалізатор токенів" для відображення слів/фрагментів в ID > Одногаряче vs вивчене вбудовування: графік відстаней косинусів Позиційні вкладення > класична синусоїдальна проти вивченої проти RoPE проти ALiBi: демо всі чотири > анімувати послідовність іграшок, яка «кодується положенням» у 3D > аблатних позиціях — спостерігайте за падінням уваги Самоувага та мультиголова увага > увагу до точкового продукту ручного дроту за один токен > шкали до карт теплових направ на кілька голів, графік теплових карт ваги на голову > замаскувати майбутні токени, перевірити причинно-наслідковий зв'язок трансформатори, QKV та укладання > поєднати реалізації Attention з LayerNorm і залишками → одноблочному трансформаторі > узагальнити: n-блок "міні-формувач" на даних іграшок > розсікати Q, K, V: міняти їх місцями, ламати, дивитися, що вибухає Параметри вибірки: temp/top-k/top-p > кодувати приладову панель семплера — інтерактивно налаштовувати temp/k/p та виходи зразків > графік ентропії та різноманітності виводу під час розгортання параметрів > ядерна температура=0 (argmax): повторення годинника Кеш KV (швидке висновування) > записувати та повторно використовувати стани KV; Вимірюйте прискорення та відсутність кешу > створити візуалізатор "cache hit/miss" для потоків токенів > вартість кеш-пам'яті профілів для довгих і коротких послідовностей Трюки з довгим контекстом: нескінченна увага / розсувне вікно > реалізувати розсувне вікно увагу; Вимірювання втрат на довгих документах > еталонних варіантів «ефективного використання пам'яті» (переобчислення, флеш-пам'ять) > розгубленість сюжету vs довжина контексту; Знайти точку згортання контексту Суміш експертів (МНС) > кодувати рівень маршрутизатора з 2 експертами; Динамічний маршрут токенів > побудова гістограм експертного використання на основі набору даних > імітувати розріджені/щільні обміни; вимірюйте економію FLOP Згрупований запит Увага > перетворіть міні-формер на згрупований макет запиту > виміряйте швидкість проти ванільного мультиголового на великій партії > зменшена кількість груп, затримка ділянки Нормалізація та активація > ручним впровадженням LayerNorm, RMSNorm, SwiGLU, GELU > зменшують кожну — що відбувається з втратою тренувань/тестів? > розподіл активації графіка пошарово Цілі попередньої підготовки > потяг замаскований ЛМ проти причинно-наслідкового ЛМ проти префікса ЛМ на тексті іграшки > криві втрат на графіку; порівняйте, хто швидше вивчає "англійську" > генерувати зразки з кожного — зверніть увагу на дивацтва Тонке налаштування vs Інструкція Тюнінг проти RLHF > точне налаштування на невеликому користувацькому наборі даних > інструктаж налаштовується за допомогою попередніх завдань («Узагальнити: ...») > RLHF: зламайте модель винагороди, використовуйте PPO на 10 кроків, побудуйте графік винагороди Закони масштабування та можливості моделі > тренувати крихітні, маленькі, середні моделі — втрати сюжету vs розмір > еталонний час настінного годинника, відеопам'ять, пропускна здатність > екстраполювати криву масштабування — наскільки «тупо» ви можете піти? Квантування > код PTQ & QAT; експорт до GGUF/AWQ; падіння точності сюжету Стеки висновків/тренувань: > портувати модель з HuggingFace на Deepspeed, vLLM, ExLlama > пропускна здатність, відеопам'ять, затримка у всіх трьох Синтетичні дані > генерувати дані іграшок, додавати шум, дедупувати, створювати eval спліти > візуалізувати криві навчання моделі на реальному та синтезаторі Кожен проект = один основний інсайт. будувати. ділянка. Перерва. повторити. > не затримуйтеся занадто довго в теорії > код, налагоджуйте, аблат, навіть мемуйте свої графіки, лол > закінчити кожен і опублікувати те, що ви дізналися Ваше майбутнє «я» подякує вам пізніше

Найкращі

Рейтинг

Вибране