Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Ahmad

Investigador de IA e ingeniero de software, en una misión para construir un clúster de GPU DGX B200

Proyectos de ingeniería LLM paso a paso Cada proyecto = un concepto aprendido de manera difícil (es decir, real) Tokenización e incrustaciones > crear un codificador de pares de bytes + entrenar su propio vocabulario de subpalabras > escribir un "visualizador de tokens" para asignar palabras / fragmentos a ID > one-hot vs learned-embedding: trazar distancias de coseno Incrustaciones posicionales > sinusoidal clásico vs aprendido vs RoPE vs ALiBi: demostración de los cuatro > animar una secuencia de juguetes que se "codifica en posición" en 3D > posiciones de ablación: mira cómo se desploma la atención Autoatención y atención multicabezal > atención de productos de punto de alambre manual para un token > escala a mapas de calor de peso por cabeza de múltiples cabezales > enmascarar tokens futuros, verificar la propiedad causal transformadores, QKV, y apilamiento > apilar las implementaciones de Attention con LayerNorm y residuos → transformador de un solo bloque > generalizar: n-block "mini-former" en datos de juguetes > diseccionar Q, K, V: cámbialos, rómpelos, mira qué explota Parámetros de muestreo: temp / top-k / top-p > codificar un panel de muestras: ajuste interactivo temp/k/p y salidas de muestra > trazar la entropía frente a la diversidad de salida a medida que barre los parámetros > Nuke temp=0 (argmax): ver repetición Caché KV (inferencia rápida) > registrar y reutilizar los estados de KV; Medir la aceleración frente a la ausencia de caché > crear un visualizador de "acierto / error de caché" para flujos de tokens > costo de memoria caché de perfil para secuencias largas frente a cortas Trucos de contexto largo: Infini-Attention / Ventana deslizante > implementar la atención de la ventana deslizante; Medir la pérdida en documentos largos > comparar variantes "eficientes en memoria" (recomputación, flash) > la perplejidad de la trama frente a la longitud del contexto; Buscar punto de colapso de contexto Mezcla de expertos (MoE) > codificar una capa de enrutador de 2 expertos; enrutar tokens dinámicamente > trazar histogramas de utilización de expertos sobre el conjunto de datos > simular intercambios dispersos / densos; medir los ahorros de FLOP Atención de consulta agrupada > convertir su miniformador en un diseño de consulta agrupado > medir la velocidad frente a la multicabeza de vainilla en lotes grandes > ablación del número de grupos, trazar la latencia Normalización y activaciones > implemente manualmente LayerNorm, RMSNorm, SwiGLU, GELU > ablacionar cada uno: ¿qué sucede con la pérdida de entrenamiento / prueba? > trazar las distribuciones de activación por capas Objetivos de preentrenamiento > tren enmascarado LM vs causal LM vs prefijo LM en texto de juguete > trazar curvas de pérdida; compare cuál aprende "inglés" más rápido > generar muestras a partir de cada uno: peculiaridades de las notas Ajuste fino vs Ajuste de instrucciones vs RLHF > ajustar un pequeño conjunto de datos personalizado > ajuste de instrucciones anteponiendo tareas ("Resumir: ...") > RLHF: hackear un modelo de recompensa, usar PPO para 10 pasos, trazar la recompensa Leyes de escalado y capacidad del modelo > entrenar modelos pequeños, pequeños y medianos: pérdida de trazado frente al tamaño > tiempo de reloj de pared, VRAM, rendimiento de referencia > curva de escala extrapolada: ¿qué tan "tonto" puedes ser? Cuantización > código PTQ & QAT; exportar a GGUF/AWQ; Caída de precisión de trazado Pilas de inferencia/entrenamiento: > portar un modelo de HuggingFace a Deepspeed, vLLM, ExLlama > rendimiento del perfil, VRAM y latencia en los tres Datos sintéticos > generar datos de juguetes, agregar ruido, deduplicar, crear divisiones de evaluación > visualizar las curvas de aprendizaje del modelo en real vs sintetizador Cada proyecto = una idea central. construir. conspirar. quebrar. repetir. > no te quedes atascado demasiado tiempo en teoría > codificar, depurar, ablacionar, incluso meme tus gráficos jajaja > termina cada uno y publica lo que aprendiste tu yo futuro te lo agradecerá más tarde

Populares

Ranking

Favoritas