Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Muy buen blog de @character_ai sumergiéndose en cómo entrenaron su modelo patentado Kaiju (13B, 34B, 110B), antes de cambiar al modelo OSS, y spoiler: tiene Noam Shazeer escrito por todas partes. La mayoría de las opciones para el diseño del modelo (MQA, SWA, KV Cache, Quantization) no son para optimizar el "punto de referencia AGI" (piense en MMLU), ya que esto no es para lo que la gente usará el modelo, sino para tener una buena velocidad de servicio. Aún así, incluyen código en la mezcla previa al entrenamiento y realizan recocido en datos de alta calidad "amigables con los puntos de referencia". Una cosa sorprendente es que esos modelos no son MoE, a pesar de que las personas que trabajaban en el personaje en ese momento como @stephenroller o Noam trabajaron anteriormente en MoE. Aquí hay algunas optimizaciones que hicieron -> Escalado similar a MuP -> MQA + SWA -> Sujeción en todas partes para controlar la activación, ¿no está seguro de si es suave o duro? -> Uso compartido de caché de KV -> Función de activación de Relu^2 -> FSDP + TP + SP -> Comunicación de gradiente Int6 -> Quantization Aware Training (QAT) con cosas como "bungee_scalar" para obtener una receta estable para modelos más pequeños. KV Cache y forward pass están en int8, gradient y activation están en bf16, master weight y grad acc en fp32.

Populares

Ranking

Favoritas