一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Ahmad

人工智能研究员和软件工程师，肩负构建 DGX B200 GPU 集群的使命

逐步进行 LLM 工程项目每个项目 = 一种通过艰难（即真实）方式学习的概念词元化与嵌入 > 构建字节对编码器 + 训练自己的子词词汇 > 编写一个“词元可视化器”将单词/块映射到 ID > 一热编码与学习嵌入：绘制余弦距离位置嵌入 > 经典的正弦波与学习的与 RoPE 与 ALiBi：演示所有四种 > 动画展示一个玩具序列在 3D 中被“位置编码” > 消除位置——观察注意力崩溃自注意力与多头注意力 > 手动连接一个词元的点积注意力 > 扩展到多头，绘制每头权重热图 > 屏蔽未来词元，验证因果属性变换器、QKV 和堆叠 > 将注意力实现与层归一化和残差堆叠 → 单块变换器 > 概括：在玩具数据上进行 n 块“迷你变换器” > 解剖 Q、K、V：交换它们，打破它们，看看什么会爆炸采样参数：温度/前 k/前 p > 编写一个采样器仪表板——交互式调节温度/k/p 并采样输出 > 绘制熵与输出多样性之间的关系 > 清除 temp=0（argmax）：观察重复 KV 缓存（快速推理） > 记录并重用 KV 状态；测量与无缓存的加速 > 为词元流构建一个“缓存命中/未命中”可视化器 > 评估长序列与短序列的缓存内存成本长上下文技巧：无限注意力 / 滑动窗口 > 实现滑动窗口注意力；测量长文档的损失 > 基准“内存高效”（重新计算，闪存）变体 > 绘制困惑度与上下文长度的关系；找到上下文崩溃点专家混合（MoE） > 编写一个 2 专家路由层；动态路由词元 > 绘制数据集上的专家利用率直方图 > 模拟稀疏/密集交换；测量 FLOP 节省分组查询注意力 > 将你的迷你变换器转换为分组查询布局 > 测量与大型批次的普通多头的速度 > 消除组数，绘制延迟归一化与激活 > 手动实现层归一化、RMSNorm、SwiGLU、GELU > 消除每个——训练/测试损失会发生什么？ > 绘制逐层激活分布预训练目标 > 在玩具文本上训练掩蔽 LM 与因果 LM 与前缀 LM > 绘制损失曲线；比较哪个更快地学习“英语” > 从每个生成样本——注意奇特之处微调与指令调优与 RLHF > 在小型自定义数据集上进行微调 > 通过在任务前添加前缀进行指令调优（“总结：...”） > RLHF：黑客奖励模型，使用 PPO 进行 10 步，绘制奖励扩展法则与模型容量 > 训练微型、小型、中型模型——绘制损失与大小的关系 > 基准墙钟时间、VRAM、吞吐量 > 外推扩展曲线——你能“愚蠢”到什么程度？量化 > 编写 PTQ 和 QAT；导出到 GGUF/AWQ；绘制准确度下降推理/训练堆栈： > 将模型从 HuggingFace 移植到 Deepspeed、vLLM、ExLlama > 评估所有三者的吞吐量、VRAM、延迟合成数据 > 生成玩具数据，添加噪声，去重，创建评估拆分 > 可视化模型在真实与合成数据上的学习曲线每个项目 = 一个核心见解。构建。绘制。打破。重复。 > 不要在理论中停留太久 > 编码，调试，消除，甚至给你的图表加个 meme 哈哈 > 完成每个项目并发布你学到的东西你的未来自我会感谢你。