proyectos de ingeniería LLM paso a paso each project = one concept learned the hard (i.e. real) way Tokenización y Embeddings > construir un codificador de pares de bytes + entrenar tu propio vocabulario de subpalabras > escribir un “visualizador de tokens” para mapear palabras/trozos a IDs > one-hot vs learned-embedding: graficar distancias coseno Embeddings Posicionales > sinusoidal clásico vs aprendido vs RoPE vs ALiBi: demostrar los cuatro > animar una secuencia de juguete siendo “codificada por posición” en 3D > ablar posiciones—ver cómo colapsa la atención Autoatención y Atención Multi-cabeza > cablear manualmente la atención por producto punto para un token > escalar a multi-cabeza, graficar mapas de calor de pesos por cabeza > enmascarar tokens futuros, verificar propiedad causal transformers, QKV y apilamiento > apilar las implementaciones de Atención con LayerNorm y residuales → transformador de bloque único > generalizar: “mini-former” de n-bloques en datos de juguete > diseccionar Q, K, V: intercambiarlos, romperlos, ver qué explota Parámetros de Muestreo: temp/top-k/top-p ...