sujets clés à apprendre sur le fonctionnement des llms, tout ce qu'il faut, c'est < 2 ans si vous avez une base en informatique > tokenisation et embeddings > embeddings positionnels (absolus, rope, alibi) > auto-attention et attention multi-tête > transformateurs > qkv > paramètres d'échantillonnage : température, top-k top-p > cache kv (et pourquoi l'inférence est rapide) > attention infinie & fenêtre glissante (astuces pour un long contexte) > mélange d'experts (couches de routage moe) > attention par requête groupée > normalisation et activations > objectifs de pré-entraînement (causal, masqué, etc) > ajustement fin vs ajustement par instruction vs rlhf > lois d'échelle et courbes de capacité des modèles sujets bonus : > quantifications - qat vs ptq (ggufs, awq, etc) > piles d'entraînement vs d'inférence (deepspeed, vllm, etc) > génération de données synthétiques