DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Ahmad

Chercheur en IA et ingénieur logiciel, en mission pour construire un cluster GPU DGX B200

projets d'ingénierie LLM étape par étape en chaque projet = un concept appris à la dure (c'est-à-dire de manière réelle) Tokenisation & Embeddings > construire un encodeur byte-pair + entraîner votre propre vocabulaire de sous-mots > écrire un "visualiseur de tokens" pour mapper des mots/segments à des ID > one-hot vs embedding appris : tracer les distances cosinus Embeddings positionnels > sinusoidal classique vs appris vs RoPE vs ALiBi : démontrer les quatre > animer une séquence jouet étant "position-encodée" en 3D > ablater les positions — regarder l'attention s'effondrer Auto-attention & Attention multi-tête > câbler manuellement l'attention par produit scalaire pour un token > passer à multi-tête, tracer des cartes thermiques de poids par tête > masquer les tokens futurs, vérifier la propriété causale transformers, QKV, & empilement > empiler les implémentations d'Attention avec LayerNorm et résiduels → transformateur à bloc unique > généraliser : "mini-former" à n-blocs sur des données jouets > disséquer Q, K, V : les échanger, les casser, voir ce qui explose Paramètres d'échantillonnage : temp/top-k/top-p > coder un tableau de bord d'échantillonneur — régler interactivement temp/k/p et échantillonner des sorties > tracer l'entropie vs la diversité des sorties en balayant les paramètres > anéantir temp=0 (argmax) : regarder la répétition Cache KV (inférence rapide) > enregistrer & réutiliser les états KV ; mesurer l'accélération vs sans cache > construire un "visualiseur de cache hit/miss" pour les flux de tokens > profiler le coût mémoire du cache pour des séquences longues vs courtes Astuces de contexte long : Infini-Attention / Fenêtre glissante > implémenter l'attention par fenêtre glissante ; mesurer la perte sur de longs documents > évaluer les variantes "économes en mémoire" (recalcul, flash) > tracer la perplexité vs la longueur du contexte ; trouver le point d'effondrement du contexte Mélange d'experts (MoE) > coder une couche de routeur à 2 experts ; acheminer les tokens dynamiquement > tracer des histogrammes d'utilisation des experts sur le jeu de données > simuler des échanges clairsemés/denses ; mesurer les économies de FLOP Attention par requête groupée > convertir votre mini-former en disposition de requête groupée > mesurer la vitesse vs multi-tête vanille sur un grand lot > ablater le nombre de groupes, tracer la latence Normalisation & Activations > implémenter manuellement LayerNorm, RMSNorm, SwiGLU, GELU > ablater chacun — que se passe-t-il avec la perte d'entraînement/test ? > tracer les distributions d'activation couche par couche Objectifs de pré-entraînement > entraîner LM masqué vs LM causal vs LM préfixe sur du texte jouet > tracer les courbes de perte ; comparer lequel apprend "l'anglais" plus rapidement > générer des échantillons de chacun — noter les particularités Finetuning vs Instruction Tuning vs RLHF > affiner sur un petit jeu de données personnalisé > instruction-tuner en préfixant des tâches ("Résumer : ...") > RLHF : pirater un modèle de récompense, utiliser PPO pendant 10 étapes, tracer la récompense Lois de mise à l'échelle & Capacité du modèle > entraîner des modèles petits, moyens, grands — tracer la perte vs la taille > évaluer le temps d'horloge, la VRAM, le débit > extrapoler la courbe de mise à l'échelle — jusqu'où pouvez-vous aller "stupide" ? Quantification > coder PTQ & QAT ; exporter vers GGUF/AWQ ; tracer la chute de précision Piles d'inférence/entraînement : > porter un modèle de HuggingFace à Deepspeed, vLLM, ExLlama > profiler le débit, la VRAM, la latence sur les trois Données synthétiques > générer des données jouets, ajouter du bruit, dédupliquer, créer des splits d'évaluation > visualiser les courbes d'apprentissage du modèle sur des données réelles vs synthétiques chaque projet = un aperçu central. construire. tracer. casser. répéter. > ne restez pas trop longtemps bloqué dans la théorie > coder, déboguer, ablater, même faire des mèmes de vos graphiques lol > terminez chacun et publiez ce que vous avez appris > votre futur vous remerciera plus tard

Meilleurs

Classement

Favoris