Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Дослідник штучного інтелекту та інженер-програміст із місією створити кластер графічних процесорів DGX B200
Покрокові інженерні проекти LLM
Кожен проект = одна концепція, вивчена важким (тобто реальним) способом
Токенізація та вбудовування
> створюйте кодувальник байт-пари + тренуйте власний словник підслів
> написати "візуалізатор токенів" для відображення слів/фрагментів в ID
> Одногаряче vs вивчене вбудовування: графік відстаней косинусів
Позиційні вкладення
> класична синусоїдальна проти вивченої проти RoPE проти ALiBi: демо всі чотири
> анімувати послідовність іграшок, яка «кодується положенням» у 3D
> аблатних позиціях — спостерігайте за падінням уваги
Самоувага та мультиголова увага
> увагу до точкового продукту ручного дроту за один токен
> шкали до карт теплових направ на кілька голів, графік теплових карт ваги на голову
> замаскувати майбутні токени, перевірити причинно-наслідковий зв'язок
трансформатори, QKV та укладання
> поєднати реалізації Attention з LayerNorm і залишками → одноблочному трансформаторі
> узагальнити: n-блок "міні-формувач" на даних іграшок
> розсікати Q, K, V: міняти їх місцями, ламати, дивитися, що вибухає
Параметри вибірки: temp/top-k/top-p
> кодувати приладову панель семплера — інтерактивно налаштовувати temp/k/p та виходи зразків
> графік ентропії та різноманітності виводу під час розгортання параметрів
> ядерна температура=0 (argmax): повторення годинника
Кеш KV (швидке висновування)
> записувати та повторно використовувати стани KV; Вимірюйте прискорення та відсутність кешу
> створити візуалізатор "cache hit/miss" для потоків токенів
> вартість кеш-пам'яті профілів для довгих і коротких послідовностей
Трюки з довгим контекстом: нескінченна увага / розсувне вікно
> реалізувати розсувне вікно увагу; Вимірювання втрат на довгих документах
> еталонних варіантів «ефективного використання пам'яті» (переобчислення, флеш-пам'ять)
> розгубленість сюжету vs довжина контексту; Знайти точку згортання контексту
Суміш експертів (МНС)
> кодувати рівень маршрутизатора з 2 експертами; Динамічний маршрут токенів
> побудова гістограм експертного використання на основі набору даних
> імітувати розріджені/щільні обміни; вимірюйте економію FLOP
Згрупований запит Увага
> перетворіть міні-формер на згрупований макет запиту
> виміряйте швидкість проти ванільного мультиголового на великій партії
> зменшена кількість груп, затримка ділянки
Нормалізація та активація
> ручним впровадженням LayerNorm, RMSNorm, SwiGLU, GELU
> зменшують кожну — що відбувається з втратою тренувань/тестів?
> розподіл активації графіка пошарово
Цілі попередньої підготовки
> потяг замаскований ЛМ проти причинно-наслідкового ЛМ проти префікса ЛМ на тексті іграшки
> криві втрат на графіку; порівняйте, хто швидше вивчає "англійську"
> генерувати зразки з кожного — зверніть увагу на дивацтва
Тонке налаштування vs Інструкція Тюнінг проти RLHF
> точне налаштування на невеликому користувацькому наборі даних
> інструктаж налаштовується за допомогою попередніх завдань («Узагальнити: ...»)
> RLHF: зламайте модель винагороди, використовуйте PPO на 10 кроків, побудуйте графік винагороди
Закони масштабування та можливості моделі
> тренувати крихітні, маленькі, середні моделі — втрати сюжету vs розмір
> еталонний час настінного годинника, відеопам'ять, пропускна здатність
> екстраполювати криву масштабування — наскільки «тупо» ви можете піти?
Квантування
> код PTQ & QAT; експорт до GGUF/AWQ; падіння точності сюжету
Стеки висновків/тренувань:
> портувати модель з HuggingFace на Deepspeed, vLLM, ExLlama
> пропускна здатність, відеопам'ять, затримка у всіх трьох
Синтетичні дані
> генерувати дані іграшок, додавати шум, дедупувати, створювати eval спліти
> візуалізувати криві навчання моделі на реальному та синтезаторі
Кожен проект = один основний інсайт. будувати. ділянка. Перерва. повторити.
> не затримуйтеся занадто довго в теорії
> код, налагоджуйте, аблат, навіть мемуйте свої графіки, лол
> закінчити кожен і опублікувати те, що ви дізналися
Ваше майбутнє «я» подякує вам пізніше
36,28K
Ключові теми для вивчення того, як працюють LLMS, все, що потрібно, це < 2 роки, якщо у вас є CS Foundation > токенізація та вбудовування
> позиційні вкладення (абсолют, мотузка, алібі)
> уваги до себе та мультиголової уваги
> трансформатори
> qkv
> параметри відбору проб: температура, топ-к топ-п
> кВ кеш (і чому висновок є швидким)
> нескінченна увага і розсувне вікно (трюки з довгим контекстом)
> суміш експертів (шари маршрутизації МНС)
> згрупованих запитів увагу
> нормалізація та активація
> цілі передтренувальної підготовки (причинно-наслідкові, замасковані і т.д.)
> Тонке налаштування vs інструкція Тюнінг vs RLHF
> закони масштабування та криві ємності моделі
Бонусні теми:
> квантування - qat vs ptq (ggufs, awq і т.д.)
> Навчання та стеки висновків (deepspeed, vllm тощо)
> генерація синтетичних даних
5,39K
Найкращі
Рейтинг
Вибране