Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Chercheur en IA et ingénieur logiciel, en mission pour construire un cluster GPU DGX B200
projets d'ingénierie LLM étape par étape
en chaque projet = un concept appris à la dure (c'est-à-dire de manière réelle)
Tokenisation & Embeddings
> construire un encodeur byte-pair + entraîner votre propre vocabulaire de sous-mots
> écrire un "visualiseur de tokens" pour mapper des mots/segments à des ID
> one-hot vs embedding appris : tracer les distances cosinus
Embeddings positionnels
> sinusoidal classique vs appris vs RoPE vs ALiBi : démontrer les quatre
> animer une séquence jouet étant "position-encodée" en 3D
> ablater les positions — regarder l'attention s'effondrer
Auto-attention & Attention multi-tête
> câbler manuellement l'attention par produit scalaire pour un token
> passer à multi-tête, tracer des cartes thermiques de poids par tête
> masquer les tokens futurs, vérifier la propriété causale
transformers, QKV, & empilement
> empiler les implémentations d'Attention avec LayerNorm et résiduels → transformateur à bloc unique
> généraliser : "mini-former" à n-blocs sur des données jouets
> disséquer Q, K, V : les échanger, les casser, voir ce qui explose
Paramètres d'échantillonnage : temp/top-k/top-p
> coder un tableau de bord d'échantillonneur — régler interactivement temp/k/p et échantillonner des sorties
> tracer l'entropie vs la diversité des sorties en balayant les paramètres
> anéantir temp=0 (argmax) : regarder la répétition
Cache KV (inférence rapide)
> enregistrer & réutiliser les états KV ; mesurer l'accélération vs sans cache
> construire un "visualiseur de cache hit/miss" pour les flux de tokens
> profiler le coût mémoire du cache pour des séquences longues vs courtes
Astuces de contexte long : Infini-Attention / Fenêtre glissante
> implémenter l'attention par fenêtre glissante ; mesurer la perte sur de longs documents
> évaluer les variantes "économes en mémoire" (recalcul, flash)
> tracer la perplexité vs la longueur du contexte ; trouver le point d'effondrement du contexte
Mélange d'experts (MoE)
> coder une couche de routeur à 2 experts ; acheminer les tokens dynamiquement
> tracer des histogrammes d'utilisation des experts sur le jeu de données
> simuler des échanges clairsemés/denses ; mesurer les économies de FLOP
Attention par requête groupée
> convertir votre mini-former en disposition de requête groupée
> mesurer la vitesse vs multi-tête vanille sur un grand lot
> ablater le nombre de groupes, tracer la latence
Normalisation & Activations
> implémenter manuellement LayerNorm, RMSNorm, SwiGLU, GELU
> ablater chacun — que se passe-t-il avec la perte d'entraînement/test ?
> tracer les distributions d'activation couche par couche
Objectifs de pré-entraînement
> entraîner LM masqué vs LM causal vs LM préfixe sur du texte jouet
> tracer les courbes de perte ; comparer lequel apprend "l'anglais" plus rapidement
> générer des échantillons de chacun — noter les particularités
Finetuning vs Instruction Tuning vs RLHF
> affiner sur un petit jeu de données personnalisé
> instruction-tuner en préfixant des tâches ("Résumer : ...")
> RLHF : pirater un modèle de récompense, utiliser PPO pendant 10 étapes, tracer la récompense
Lois de mise à l'échelle & Capacité du modèle
> entraîner des modèles petits, moyens, grands — tracer la perte vs la taille
> évaluer le temps d'horloge, la VRAM, le débit
> extrapoler la courbe de mise à l'échelle — jusqu'où pouvez-vous aller "stupide" ?
Quantification
> coder PTQ & QAT ; exporter vers GGUF/AWQ ; tracer la chute de précision
Piles d'inférence/entraînement :
> porter un modèle de HuggingFace à Deepspeed, vLLM, ExLlama
> profiler le débit, la VRAM, la latence sur les trois
Données synthétiques
> générer des données jouets, ajouter du bruit, dédupliquer, créer des splits d'évaluation
> visualiser les courbes d'apprentissage du modèle sur des données réelles vs synthétiques
chaque projet = un aperçu central. construire. tracer. casser. répéter.
> ne restez pas trop longtemps bloqué dans la théorie
> coder, déboguer, ablater, même faire des mèmes de vos graphiques lol
> terminez chacun et publiez ce que vous avez appris
> votre futur vous remerciera plus tard
37,1K
sujets clés à apprendre sur le fonctionnement des llms, tout ce qu'il faut, c'est < 2 ans si vous avez une base en informatique
> tokenisation et embeddings
> embeddings positionnels (absolus, rope, alibi)
> auto-attention et attention multi-tête
> transformateurs
> qkv
> paramètres d'échantillonnage : température, top-k top-p
> cache kv (et pourquoi l'inférence est rapide)
> attention infinie & fenêtre glissante (astuces pour un long contexte)
> mélange d'experts (couches de routage moe)
> attention par requête groupée
> normalisation et activations
> objectifs de pré-entraînement (causal, masqué, etc)
> ajustement fin vs ajustement par instruction vs rlhf
> lois d'échelle et courbes de capacité des modèles
sujets bonus :
> quantifications - qat vs ptq (ggufs, awq, etc)
> piles d'entraînement vs d'inférence (deepspeed, vllm, etc)
> génération de données synthétiques
5,49K
Meilleurs
Classement
Favoris