學習如何理解大型語言模型(LLMs)的關鍵主題,只需不到2年的時間,如果你有計算機科學基礎 > 詞元化和嵌入 > 位置嵌入(絕對、繩索、阿里比) > 自注意力和多頭注意力 > 變換器 > qkv > 採樣參數:溫度,top-k,top-p > kv緩存(以及為什麼推理速度快) > 無限注意力和滑動窗口(長上下文技巧) > 專家混合(moe路由層) > 分組查詢注意力 > 歸一化和激活 > 預訓練目標(因果、掩蔽等) > 微調與指令調優與強化學習從人類反饋(rlhf) > 縮放法則和模型容量曲線 額外主題: > 量化 - qat與ptq(ggufs,awq等) > 訓練與推理堆棧(deepspeed,vllm等) > 合成數據生成