热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲

Ahmad
人工智能研究员和软件工程师,肩负构建 DGX B200 GPU 集群的使命
逐步进行 LLM 工程项目
每个项目 = 一种通过艰难(即真实)方式学习的概念
词元化与嵌入
> 构建字节对编码器 + 训练自己的子词词汇
> 编写一个“词元可视化器”将单词/块映射到 ID
> 一热编码与学习嵌入:绘制余弦距离
位置嵌入
> 经典的正弦波与学习的与 RoPE 与 ALiBi:演示所有四种
> 动画展示一个玩具序列在 3D 中被“位置编码”
> 消除位置——观察注意力崩溃
自注意力与多头注意力
> 手动连接一个词元的点积注意力
> 扩展到多头,绘制每头权重热图
> 屏蔽未来词元,验证因果属性
变换器、QKV 和堆叠
> 将注意力实现与层归一化和残差堆叠 → 单块变换器
> 概括:在玩具数据上进行 n 块“迷你变换器”
> 解剖 Q、K、V:交换它们,打破它们,看看什么会爆炸
采样参数:温度/前 k/前 p
> 编写一个采样器仪表板——交互式调节温度/k/p 并采样输出
> 绘制熵与输出多样性之间的关系
> 清除 temp=0(argmax):观察重复
KV 缓存(快速推理)
> 记录并重用 KV 状态;测量与无缓存的加速
> 为词元流构建一个“缓存命中/未命中”可视化器
> 评估长序列与短序列的缓存内存成本
长上下文技巧:无限注意力 / 滑动窗口
> 实现滑动窗口注意力;测量长文档的损失
> 基准“内存高效”(重新计算,闪存)变体
> 绘制困惑度与上下文长度的关系;找到上下文崩溃点
专家混合(MoE)
> 编写一个 2 专家路由层;动态路由词元
> 绘制数据集上的专家利用率直方图
> 模拟稀疏/密集交换;测量 FLOP 节省
分组查询注意力
> 将你的迷你变换器转换为分组查询布局
> 测量与大型批次的普通多头的速度
> 消除组数,绘制延迟
归一化与激活
> 手动实现层归一化、RMSNorm、SwiGLU、GELU
> 消除每个——训练/测试损失会发生什么?
> 绘制逐层激活分布
预训练目标
> 在玩具文本上训练掩蔽 LM 与因果 LM 与前缀 LM
> 绘制损失曲线;比较哪个更快地学习“英语”
> 从每个生成样本——注意奇特之处
微调与指令调优与 RLHF
> 在小型自定义数据集上进行微调
> 通过在任务前添加前缀进行指令调优(“总结:...”)
> RLHF:黑客奖励模型,使用 PPO 进行 10 步,绘制奖励
扩展法则与模型容量
> 训练微型、小型、中型模型——绘制损失与大小的关系
> 基准墙钟时间、VRAM、吞吐量
> 外推扩展曲线——你能“愚蠢”到什么程度?
量化
> 编写 PTQ 和 QAT;导出到 GGUF/AWQ;绘制准确度下降
推理/训练堆栈:
> 将模型从 HuggingFace 移植到 Deepspeed、vLLM、ExLlama
> 评估所有三者的吞吐量、VRAM、延迟
合成数据
> 生成玩具数据,添加噪声,去重,创建评估拆分
> 可视化模型在真实与合成数据上的学习曲线
每个项目 = 一个核心见解。构建。绘制。打破。重复。
> 不要在理论中停留太久
> 编码,调试,消除,甚至给你的图表加个 meme 哈哈
> 完成每个项目并发布你学到的东西
你的未来自我会感谢你。
34.56K
学习如何理解大型语言模型(LLMs)的关键主题,只需不到2年的时间,如果你有计算机科学基础
> 词元化和嵌入
> 位置嵌入(绝对、绳索、阿里比)
> 自注意力和多头注意力
> 变换器
> qkv
> 采样参数:温度,top-k,top-p
> kv缓存(以及为什么推理速度快)
> 无限注意力和滑动窗口(长上下文技巧)
> 专家混合(moe路由层)
> 分组查询注意力
> 归一化和激活
> 预训练目标(因果、掩蔽等)
> 微调与指令调优与强化学习从人类反馈(rlhf)
> 缩放法则和模型容量曲线
额外主题:
> 量化 - qat与ptq(ggufs,awq等)
> 训练与推理堆栈(deepspeed,vllm等)
> 合成数据生成
5.39K
热门
排行
收藏