argomenti chiave per imparare come funzionano i llms, ci vogliono meno di 2 anni se hai una base in informatica > tokenizzazione e embeddings > embeddings posizionali (assoluti, rope, alibi) > self attention e multihead attention > transformers > qkv > parametri di campionamento: temperatura, top-k top-p > cache kv (e perché l'inferenza è veloce) > attenzione infinita e finestra scorrevole (trucchi per contesti lunghi) > miscela di esperti (strati di routing moe) > attenzione a query raggruppate > normalizzazione e attivazioni > obiettivi di pre-addestramento (causale, mascherato, ecc.) > finetuning vs instruction tuning vs rlhf > leggi di scaling e curve di capacità del modello argomenti bonus: > quantizzazioni - qat vs ptq (ggufs, awq, ecc.) > stack di addestramento vs inferenza (deepspeed, vllm, ecc.) > generazione di dati sintetici