Erittäin siisti blogi @character_ai sukeltaa siihen, kuinka he kouluttivat omaa malliaan Kaiju (13B, 34B, 110B), ennen kuin he siirtyivät OSS-malliin, ja spoileri: siihen on kirjoitettu Noam Shazeer. Suurin osa mallisuunnittelun valinnoista (MQA, SWA, KV Cache, kvantisointi) ei ole optimointia "AGI-vertailuarvolle" (ajattele MMLU:ta), koska ihmiset eivät käytä mallia tähän, vaan sen sijaan sillä on hyvä tarjoilunopeus. Silti he sisällyttävät koodia koulutusta edeltävään sekoitukseen ja hehkuttavat korkealaatuista "vertailukohtaystävällistä" dataa. Yksi yllättävä asia on, että nuo mallit eivät ole MoE:tä, vaikka tuolloin hahmojen parissa työskentelevät ihmiset, kuten @stephenroller tai Noam, työskentelivät aiemmin MoE:n parissa. Tässä on muutamia optimointeja, joita he tekivät -> MuP:n kaltainen skaalaus -> MQA + SWA -> Kiinnitys kaikkialla aktivoinnin ohjaamiseksi, etkö ole varma, onko se pehmeää vai kovaa? -> KV-välimuistin jakaminen -> Relu^2-aktivointitoiminto -> FSDP + TP + SP -> Int6-gradienttiviestintä -> kvantisointitietoinen koulutus (QAT) esimerkiksi "bungee_scalar" saadaksesi vakaan reseptin pienemmille malleille. KV-välimuisti ja eteenpäinsyöttö ovat int8:ssa, gradientti ja aktivointi ovat bf16:ssa, master-paino ja grad acc fp32:ssa.