các chủ đề chính để tìm hiểu cách hoạt động của llms, tất cả chỉ mất < 2 năm nếu bạn có nền tảng cs > phân tách và nhúng > nhúng vị trí (tuyệt đối, rope, alibi) > tự chú ý và chú ý đa đầu > transformers > qkv > tham số lấy mẫu: nhiệt độ, top-k top-p > bộ nhớ kv (và lý do tại sao suy diễn nhanh) > chú ý vô hạn & cửa sổ trượt (mẹo ngữ cảnh dài) > hỗn hợp chuyên gia (các lớp định tuyến moe) > chú ý truy vấn nhóm > chuẩn hóa và kích hoạt > mục tiêu tiền huấn luyện (nguyên nhân, bị che khuất, v.v.) > tinh chỉnh so với tinh chỉnh theo hướng dẫn so với rlhf > quy luật mở rộng và đường cong dung lượng mô hình các chủ đề bổ sung: > lượng tử hóa - qat so với ptq (ggufs, awq, v.v.) > ngăn xếp huấn luyện so với suy diễn (deepspeed, vllm, v.v.) > tạo dữ liệu tổng hợp