Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Investigador de IA e ingeniero de software, en una misión para construir un clúster de GPU DGX B200
Proyectos de ingeniería LLM paso a paso
Cada proyecto = un concepto aprendido de manera difícil (es decir, real)
Tokenización e incrustaciones
> crear un codificador de pares de bytes + entrenar su propio vocabulario de subpalabras
> escribir un "visualizador de tokens" para asignar palabras / fragmentos a ID
> one-hot vs learned-embedding: trazar distancias de coseno
Incrustaciones posicionales
> sinusoidal clásico vs aprendido vs RoPE vs ALiBi: demostración de los cuatro
> animar una secuencia de juguetes que se "codifica en posición" en 3D
> posiciones de ablación: mira cómo se desploma la atención
Autoatención y atención multicabezal
> atención de productos de punto de alambre manual para un token
> escala a mapas de calor de peso por cabeza de múltiples cabezales
> enmascarar tokens futuros, verificar la propiedad causal
transformadores, QKV, y apilamiento
> apilar las implementaciones de Attention con LayerNorm y residuos → transformador de un solo bloque
> generalizar: n-block "mini-former" en datos de juguetes
> diseccionar Q, K, V: cámbialos, rómpelos, mira qué explota
Parámetros de muestreo: temp / top-k / top-p
> codificar un panel de muestras: ajuste interactivo temp/k/p y salidas de muestra
> trazar la entropía frente a la diversidad de salida a medida que barre los parámetros
> Nuke temp=0 (argmax): ver repetición
Caché KV (inferencia rápida)
> registrar y reutilizar los estados de KV; Medir la aceleración frente a la ausencia de caché
> crear un visualizador de "acierto / error de caché" para flujos de tokens
> costo de memoria caché de perfil para secuencias largas frente a cortas
Trucos de contexto largo: Infini-Attention / Ventana deslizante
> implementar la atención de la ventana deslizante; Medir la pérdida en documentos largos
> comparar variantes "eficientes en memoria" (recomputación, flash)
> la perplejidad de la trama frente a la longitud del contexto; Buscar punto de colapso de contexto
Mezcla de expertos (MoE)
> codificar una capa de enrutador de 2 expertos; enrutar tokens dinámicamente
> trazar histogramas de utilización de expertos sobre el conjunto de datos
> simular intercambios dispersos / densos; medir los ahorros de FLOP
Atención de consulta agrupada
> convertir su miniformador en un diseño de consulta agrupado
> medir la velocidad frente a la multicabeza de vainilla en lotes grandes
> ablación del número de grupos, trazar la latencia
Normalización y activaciones
> implemente manualmente LayerNorm, RMSNorm, SwiGLU, GELU
> ablacionar cada uno: ¿qué sucede con la pérdida de entrenamiento / prueba?
> trazar las distribuciones de activación por capas
Objetivos de preentrenamiento
> tren enmascarado LM vs causal LM vs prefijo LM en texto de juguete
> trazar curvas de pérdida; compare cuál aprende "inglés" más rápido
> generar muestras a partir de cada uno: peculiaridades de las notas
Ajuste fino vs Ajuste de instrucciones vs RLHF
> ajustar un pequeño conjunto de datos personalizado
> ajuste de instrucciones anteponiendo tareas ("Resumir: ...")
> RLHF: hackear un modelo de recompensa, usar PPO para 10 pasos, trazar la recompensa
Leyes de escalado y capacidad del modelo
> entrenar modelos pequeños, pequeños y medianos: pérdida de trazado frente al tamaño
> tiempo de reloj de pared, VRAM, rendimiento de referencia
> curva de escala extrapolada: ¿qué tan "tonto" puedes ser?
Cuantización
> código PTQ & QAT; exportar a GGUF/AWQ; Caída de precisión de trazado
Pilas de inferencia/entrenamiento:
> portar un modelo de HuggingFace a Deepspeed, vLLM, ExLlama
> rendimiento del perfil, VRAM y latencia en los tres
Datos sintéticos
> generar datos de juguetes, agregar ruido, deduplicar, crear divisiones de evaluación
> visualizar las curvas de aprendizaje del modelo en real vs sintetizador
Cada proyecto = una idea central. construir. conspirar. quebrar. repetir.
> no te quedes atascado demasiado tiempo en teoría
> codificar, depurar, ablacionar, incluso meme tus gráficos jajaja
> termina cada uno y publica lo que aprendiste
tu yo futuro te lo agradecerá más tarde
36.28K
Temas clave Para aprender cómo funcionan los LLM, todo lo que se necesita es < 2 años si tiene CS Foundation > tokenización e incrustaciones
> incrustaciones posicionales (absoluto, cuerda, coartada)
> la autoatención y la atención multicabeza
> transformadores
> qkv
> parámetros de muestreo: temperatura, top-k top-p
> caché de kv (y por qué la inferencia es rápida)
> Infini Atención y ventana deslizante (trucos de contexto largo)
> mezcla de expertos (capas de enrutamiento MOE)
> atención de consulta agrupada
> normalización y activaciones
> objetivos de preentrenamiento (causales, enmascarados, etc.)
> ajuste fino vs ajuste de instrucciones vs rlhf
> leyes de escalado y curvas de capacidad del modelo
Temas adicionales:
> cuantizaciones: QAT vs PTQ (GGUFS, AWQ, etc.)
> pilas de entrenamiento vs inferencia (deepspeed, VLLM, etc.)
> generación de datos sintéticos
5.39K
Populares
Ranking
Favoritas