DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Ahmad

Ricercatore di intelligenza artificiale e ingegnere del software, in missione per costruire un cluster di GPU DGX B200

progetti di ingegneria LLM passo dopo passo o ogni progetto = un concetto appreso nel modo difficile (cioè reale) Tokenizzazione & Embeddings > costruisci un codificatore byte-pair + allena il tuo vocabolario subword > scrivi un "visualizzatore di token" per mappare parole/pezzi a ID > one-hot vs embedding appreso: traccia le distanze coseno Embeddings Posizionali > sinusoidale classico vs appreso vs RoPE vs ALiBi: dimostra tutti e quattro > anima una sequenza giocattolo che viene "posizionata" in 3D > abla le posizioni—guarda il collasso dell'attenzione Self-Attention & Multihead Attention > collega manualmente l'attenzione dot-product per un token > scala a multi-head, traccia le heatmap dei pesi per testa > maschera i token futuri, verifica la proprietà causale transformers, QKV, & stacking > impila le implementazioni di Attenzione con LayerNorm e residui → transformer a blocco singolo > generalizza: "mini-former" n-blocco su dati giocattolo > disseziona Q, K, V: scambiali, rompi, guarda cosa esplode Parametri di Campionamento: temp/top-k/top-p > codifica un cruscotto di campionamento — regola interattivamente temp/k/p e campiona output > traccia entropia vs diversità dell'output mentre vari i parametri > annienta temp=0 (argmax): guarda la ripetizione Cache KV (Inferenza Veloce) > registra e riutilizza stati KV; misura il miglioramento rispetto a senza cache > costruisci un "visualizzatore di hit/miss della cache" per flussi di token > profila il costo della memoria della cache per sequenze lunghe vs corte Trucchi per Contesti Lunghi: Infini-Attention / Finestra Scorrevole > implementa l'attenzione a finestra scorrevole; misura la perdita su documenti lunghi > confronta varianti "efficienti in memoria" (ricomputazione, flash) > traccia la perplessità vs lunghezza del contesto; trova il punto di collasso del contesto Miscela di Esperti (MoE) > codifica un livello di router a 2 esperti; instrada i token dinamicamente > traccia istogrammi di utilizzo degli esperti su un dataset > simula scambi sparsi/densi; misura i risparmi FLOP Attenzione a Query Raggruppate > converti il tuo mini-former in layout di query raggruppate > misura la velocità rispetto al multi-head vaniglia su grandi batch > abla il numero di gruppi, traccia la latenza Normalizzazione & Attivazioni > implementa manualmente LayerNorm, RMSNorm, SwiGLU, GELU > abla ciascuno—cosa succede alla perdita di addestramento/test? > traccia le distribuzioni di attivazione per strato Obiettivi di Pretraining > allena LM mascherato vs LM causale vs LM prefisso su testo giocattolo > traccia le curve di perdita; confronta quale impara "l'inglese" più velocemente > genera campioni da ciascuno — nota le stranezze Finetuning vs Instruction Tuning vs RLHF > affina su un piccolo dataset personalizzato > istruzione-tune aggiungendo compiti ("Riassumi: ...") > RLHF: hacka un modello di ricompensa, usa PPO per 10 passi, traccia la ricompensa Leggi di Scaling & Capacità del Modello > allena modelli tiny, small, medium — traccia la perdita rispetto alla dimensione > confronta il tempo di wall-clock, VRAM, throughput > estrapola la curva di scaling — quanto puoi essere "stupido"? Quantizzazione > codifica PTQ & QAT; esporta in GGUF/AWQ; traccia la perdita di accuratezza Stack di Inferenza/Training: > porta un modello da HuggingFace a Deepspeed, vLLM, ExLlama > profila throughput, VRAM, latenza su tutti e tre Dati Sintetici > genera dati giocattolo, aggiungi rumore, deduplica, crea split di valutazione > visualizza le curve di apprendimento del modello su dati reali vs sintetici ogni progetto = un'intuizione fondamentale. costruisci. traccia. rompi. ripeti. > non rimanere bloccato troppo a lungo nella teoria > codifica, debug, abla, anche meme le tue grafico lol > finisci ciascuno e pubblica ciò che hai imparato > il tuo futuro io ti ringrazierà più tardi

Principali

Ranking

Preferiti