Schlüsselthemen, um zu lernen, wie LLMs funktionieren, alles, was es braucht, sind < 2 Jahre, wenn Sie eine CS-Grundlage haben > Tokenisierung und Embeddings > Positionale Embeddings (absolut, Rope, Alibi) > Selbstaufmerksamkeit und Multi-Head-Attention > Transformer > QKV > Sampling-Parameter: Temperatur, Top-k, Top-p > KV-Cache (und warum die Inferenz schnell ist) > Infini-Attention & Sliding Window (Tricks für langen Kontext) > Mischung von Experten (MoE-Routing-Schichten) > Gruppierte Abfrage-Attention > Normalisierung und Aktivierungen > Vortrainingsziele (kausal, maskiert, usw.) > Feintuning vs. Instruction Tuning vs. RLHF > Skalierungsgesetze und Modellkapazitätskurven Bonus-Themen: > Quantisierungen - QAT vs. PTQ (GGUFS, AWQ, usw.) > Trainings- vs. Inferenz-Stacks (DeepSpeed, VLLM, usw.) > Generierung synthetischer Daten