L'interview du fondateur de Kimi, Zhilin Yang, est sortie. Encore une fois, vous pouvez laisser Kimi traduire pour vous : ) beaucoup d'insights là-dedans. Plusieurs points de vue : 1/ Focus sur le Modèle de Base : K2 vise à être un modèle de base solide. Nous avons constaté que la croissance des données de haute qualité est lente, et que les données multimodales n'améliorent pas significativement le "QI" textuel. Donc, nous nous concentrons sur la maximisation de la valeur de chaque jeton de données — l'efficacité des jetons. 2/ Reformulation des Données : Avec 30T de jetons, seule une petite portion est des données de haute qualité (des milliards de jetons). Nous les reformulons pour les rendre plus efficaces pour le modèle, améliorant ainsi la généralisation. 3/ Capacité Agentique : Nous visons à améliorer la généralisation. Le plus grand défi est de faire en sorte que le modèle se généralise bien au-delà des tâches spécifiques. L'apprentissage par renforcement (RL) améliore cela par rapport à l'affinage supervisé (SFT). 4/ Formation Native à l'IA : Nous explorons des moyens plus natifs à l'IA pour former des modèles. Si l'IA peut faire de bonnes recherches d'alignement, elle se généralisera mieux, au-delà de l'optimisation pour une tâche unique. 5/ RL vs SFT : La généralisation du RL est meilleure, car elle apprend à partir d'échantillons en politique, mais elle a ses limites. Le RL aide à améliorer des tâches spécifiques, mais il est difficile de se généraliser à tous les scénarios sans tâches sur mesure. 6/ Contextes Longs : La longueur du contexte est cruciale, nous avons besoin de millions. Le défi est d'équilibrer la taille du modèle et la longueur du contexte pour une performance optimale, car certaines architectures s'améliorent avec un long contexte mais se détériorent avec des contextes courts.
81,95K