Temas clave Para aprender cómo funcionan los LLM, todo lo que se necesita es < 2 años si tiene CS Foundation > tokenización e incrustaciones > incrustaciones posicionales (absoluto, cuerda, coartada) > la autoatención y la atención multicabeza > transformadores > qkv > parámetros de muestreo: temperatura, top-k top-p > caché de kv (y por qué la inferencia es rápida) > Infini Atención y ventana deslizante (trucos de contexto largo) > mezcla de expertos (capas de enrutamiento MOE) > atención de consulta agrupada > normalización y activaciones > objetivos de preentrenamiento (causales, enmascarados, etc.) > ajuste fino vs ajuste de instrucciones vs rlhf > leyes de escalado y curvas de capacidad del modelo Temas adicionales: > cuantizaciones: QAT vs PTQ (GGUFS, AWQ, etc.) > pilas de entrenamiento vs inferencia (deepspeed, VLLM, etc.) > generación de datos sintéticos