tópicos principais para aprender como funcionam os llms, tudo o que é necessário é < 2 anos se você tiver uma base em ciências da computação > tokenização e embeddings > embeddings posicionais (absolutos, rope, alibi) > autoatenção e atenção multi-cabeça > transformers > qkv > parâmetros de amostragem: temperatura, top-k top-p > cache kv (e por que a inferência é rápida) > atenção infinita & janela deslizante (truques de contexto longo) > mistura de especialistas (camadas de roteamento moe) > atenção de consulta agrupada > normalização e ativações > objetivos de pré-treinamento (causal, mascarado, etc) > ajuste fino vs ajuste por instrução vs rlhf > leis de escalonamento e curvas de capacidade do modelo tópicos bônus: > quantizações - qat vs ptq (ggufs, awq, etc) > pilhas de treinamento vs inferência (deepspeed, vllm, etc) > geração de dados sintéticos