Một blog rất hay của @character_ai khám phá cách họ đào tạo mô hình độc quyền Kaiju (13B, 34B, 110B), trước khi chuyển sang mô hình OSS, và tiết lộ: nó có chữ ký của Noam Shazeer ở khắp nơi. Hầu hết các lựa chọn cho thiết kế mô hình (MQA, SWA, KV Cache, Quantization) không nhằm tối ưu hóa cho "AGI benchmark" (nghĩ đến MMLU) vì đây không phải là điều mà mọi người sẽ sử dụng mô hình cho mà thay vào đó là có tốc độ phục vụ tốt. Tuy nhiên, họ bao gồm mã trong hỗn hợp tiền huấn luyện và thực hiện làm nguội trên dữ liệu "thân thiện với benchmark" chất lượng cao. Một điều bất ngờ là những mô hình này không phải là MoEs, mặc dù những người làm việc tại character vào thời điểm đó như @stephenroller hoặc Noam trước đây đã làm việc trên MoE. Dưới đây là một vài tối ưu hóa mà họ đã thực hiện -> Tăng cường giống như MuP -> MQA + SWA -> Kiểm soát kích hoạt bằng cách kẹp mọi nơi, không chắc là mềm hay cứng? -> Chia sẻ KV Cache -> Hàm kích hoạt Relu^2 -> FSDP + TP + SP -> Giao tiếp gradient Int6 -> Đào tạo nhận thức về lượng tử hóa (QAT) với những thứ như "bungee_scalar" để có một công thức ổn định cho các mô hình nhỏ hơn. KV Cache và bước tiến là ở int8, gradient và kích hoạt là ở bf16, trọng số chính và grad acc ở fp32.