Proyectos de ingeniería LLM paso a paso Cada proyecto = un concepto aprendido de manera difícil (es decir, real) Tokenización e incrustaciones > crear un codificador de pares de bytes + entrenar su propio vocabulario de subpalabras > escribir un "visualizador de tokens" para asignar palabras / fragmentos a ID > one-hot vs learned-embedding: trazar distancias de coseno Incrustaciones posicionales > sinusoidal clásico vs aprendido vs RoPE vs ALiBi: demostración de los cuatro > animar una secuencia de juguetes que se "codifica en posición" en 3D > posiciones de ablación: mira cómo se desploma la atención Autoatención y atención multicabezal > atención de productos de punto de alambre manual para un token > escala a mapas de calor de peso por cabeza de múltiples cabezales > enmascarar tokens futuros, verificar la propiedad causal transformadores, QKV, y apilamiento > apilar las implementaciones de Attention con LayerNorm y residuos → transformador de un solo bloque > generalizar: n-block "mini-former" en datos de juguetes > diseccionar Q, K, V: cámbialos, rómpelos, mira qué explota Parámetros de muestreo: temp / top-k / top-p ...