Principais tópicos para aprender como os LLMs funcionam, basta < 2 anos se você tiver CS Foundation > tokenização e incorporações > incorporações posicionais (absoluto, corda, álibi) > auto-atenção e atenção multicabeça > transformadores > qkv > parâmetros de amostragem: temperatura, top-k top-p > cache de kv (e por que a inferência é rápida) > atenção infini & janela deslizante (truques de contexto longo) > mistura de especialistas (camadas de roteamento moe) > atenção de consulta agrupada > normalização e ativações > objetivos de pré-treinamento (causais, mascarados, etc.) > Ajuste fino vs Ajuste de instrução vs RLHF > leis de escala e curvas de capacidade do modelo Tópicos bônus: > quantizações - QAT vs PTQ (GGUFs, AWQ, etc) > treinamento vs pilhas de inferência (deepspeed, vllm, etc) > geração de dados sintéticos