Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ahmad
Ricercatore di intelligenza artificiale e ingegnere del software, in missione per costruire un cluster di GPU DGX B200
progetti di ingegneria LLM passo dopo passo
o ogni progetto = un concetto appreso nel modo difficile (cioè reale)
Tokenizzazione & Embeddings
> costruisci un codificatore byte-pair + allena il tuo vocabolario subword
> scrivi un "visualizzatore di token" per mappare parole/pezzi a ID
> one-hot vs embedding appreso: traccia le distanze coseno
Embeddings Posizionali
> sinusoidale classico vs appreso vs RoPE vs ALiBi: dimostra tutti e quattro
> anima una sequenza giocattolo che viene "posizionata" in 3D
> abla le posizioni—guarda il collasso dell'attenzione
Self-Attention & Multihead Attention
> collega manualmente l'attenzione dot-product per un token
> scala a multi-head, traccia le heatmap dei pesi per testa
> maschera i token futuri, verifica la proprietà causale
transformers, QKV, & stacking
> impila le implementazioni di Attenzione con LayerNorm e residui → transformer a blocco singolo
> generalizza: "mini-former" n-blocco su dati giocattolo
> disseziona Q, K, V: scambiali, rompi, guarda cosa esplode
Parametri di Campionamento: temp/top-k/top-p
> codifica un cruscotto di campionamento — regola interattivamente temp/k/p e campiona output
> traccia entropia vs diversità dell'output mentre vari i parametri
> annienta temp=0 (argmax): guarda la ripetizione
Cache KV (Inferenza Veloce)
> registra e riutilizza stati KV; misura il miglioramento rispetto a senza cache
> costruisci un "visualizzatore di hit/miss della cache" per flussi di token
> profila il costo della memoria della cache per sequenze lunghe vs corte
Trucchi per Contesti Lunghi: Infini-Attention / Finestra Scorrevole
> implementa l'attenzione a finestra scorrevole; misura la perdita su documenti lunghi
> confronta varianti "efficienti in memoria" (ricomputazione, flash)
> traccia la perplessità vs lunghezza del contesto; trova il punto di collasso del contesto
Miscela di Esperti (MoE)
> codifica un livello di router a 2 esperti; instrada i token dinamicamente
> traccia istogrammi di utilizzo degli esperti su un dataset
> simula scambi sparsi/densi; misura i risparmi FLOP
Attenzione a Query Raggruppate
> converti il tuo mini-former in layout di query raggruppate
> misura la velocità rispetto al multi-head vaniglia su grandi batch
> abla il numero di gruppi, traccia la latenza
Normalizzazione & Attivazioni
> implementa manualmente LayerNorm, RMSNorm, SwiGLU, GELU
> abla ciascuno—cosa succede alla perdita di addestramento/test?
> traccia le distribuzioni di attivazione per strato
Obiettivi di Pretraining
> allena LM mascherato vs LM causale vs LM prefisso su testo giocattolo
> traccia le curve di perdita; confronta quale impara "l'inglese" più velocemente
> genera campioni da ciascuno — nota le stranezze
Finetuning vs Instruction Tuning vs RLHF
> affina su un piccolo dataset personalizzato
> istruzione-tune aggiungendo compiti ("Riassumi: ...")
> RLHF: hacka un modello di ricompensa, usa PPO per 10 passi, traccia la ricompensa
Leggi di Scaling & Capacità del Modello
> allena modelli tiny, small, medium — traccia la perdita rispetto alla dimensione
> confronta il tempo di wall-clock, VRAM, throughput
> estrapola la curva di scaling — quanto puoi essere "stupido"?
Quantizzazione
> codifica PTQ & QAT; esporta in GGUF/AWQ; traccia la perdita di accuratezza
Stack di Inferenza/Training:
> porta un modello da HuggingFace a Deepspeed, vLLM, ExLlama
> profila throughput, VRAM, latenza su tutti e tre
Dati Sintetici
> genera dati giocattolo, aggiungi rumore, deduplica, crea split di valutazione
> visualizza le curve di apprendimento del modello su dati reali vs sintetici
ogni progetto = un'intuizione fondamentale. costruisci. traccia. rompi. ripeti.
> non rimanere bloccato troppo a lungo nella teoria
> codifica, debug, abla, anche meme le tue grafico lol
> finisci ciascuno e pubblica ciò che hai imparato
> il tuo futuro io ti ringrazierà più tardi
34,55K
argomenti chiave per imparare come funzionano i llms, ci vogliono meno di 2 anni se hai una base in informatica
> tokenizzazione e embeddings
> embeddings posizionali (assoluti, rope, alibi)
> self attention e multihead attention
> transformers
> qkv
> parametri di campionamento: temperatura, top-k top-p
> cache kv (e perché l'inferenza è veloce)
> attenzione infinita e finestra scorrevole (trucchi per contesti lunghi)
> miscela di esperti (strati di routing moe)
> attenzione a query raggruppate
> normalizzazione e attivazioni
> obiettivi di pre-addestramento (causale, mascherato, ecc.)
> finetuning vs instruction tuning vs rlhf
> leggi di scaling e curve di capacità del modello
argomenti bonus:
> quantizzazioni - qat vs ptq (ggufs, awq, ecc.)
> stack di addestramento vs inferenza (deepspeed, vllm, ecc.)
> generazione di dati sintetici
5,39K
Principali
Ranking
Preferiti