Subiecte cheie Pentru a afla cum funcționează LLM-urile, este nevoie doar de < 2 ani dacă aveți o bază CS > tokenizare și încorporari > încorporari poziționale (absolut, frânghie, alibi) > atenția de sine și atenția multihead > transformatoare > qkv > parametri de eșantionare: temperatură, top-k top-p > cache kv (și de ce inferența este rapidă) > infini atenție și fereastră glisantă (trucuri de context lung) > amestec de experți (straturi de rutare MOE) > atenție la interogare grupată > normalizare și activări > obiective de pre-antrenament (cauzal, mascat etc.) > reglarea fină vs reglarea instrucțiunilor vs rlhf > legile de scalare și modelarea curbelor de capacitate Subiecte bonus: Cuantificări > - QAT vs PTQ (GGUF, AWQ etc.) > stive de antrenament vs inferență (deepspeed, vllm etc) > generarea de date sintetice