ステップバイステップのLLMエンジニアリングプロジェクト 各プロジェクト=1つのコンセプトを苦労(つまり、実際の)方法で学んだ トークン化と埋め込み > バイトペアエンコーダーの構築 + 独自のサブワード語彙のトレーニング > 単語/チャンクを ID にマッピングする「トークン ビジュアライザー」を記述します > one-hot と learned-embedding: プロットコサイン距離 位置埋め込み >古典的な正弦波 vs 学習 vs RoPE vs ALiBi: 4 つすべてのデモ > 3D で「位置エンコード」されるおもちゃのシーケンスをアニメーション化します > アブレート位置 - 注意が崩壊するのを見てください セルフアテンションとマルチヘッドアテンション > 1 つのトークンに対する手作業のワイヤ ドット積の注意 > マルチヘッドにスケールし、ヘッドあたりの体重ヒートマップをプロットします 将来のトークンをマスクする>、因果関係の特性を検証する 変圧器、QKV、スタッキング > Attention実装をLayerNormと残差をシングルブロックトランスフォーマー→スタックします >一般化:おもちゃデータのnブロック「ミニフォーマー」 Q、K、Vを解剖する>:それらを交換し、壊し、何が爆発するかを見てください サンプリングパラメータ:temp/top-k/top-p ...