A entrevista do fundador da Kimi, Zhilin Yang, foi publicada. Novamente, você pode deixar a Kimi traduzir para você: ) há muitos insights lá. Várias considerações: 1/ Foco no Modelo Base: O K2 visa ser um modelo base sólido. Descobrimos que o crescimento de dados de alta qualidade é lento, e dados multimodais não aumentam significativamente o "QI" textual. Portanto, focamos em maximizar o valor de cada token de dados — eficiência do token. 2/ Reformulação de Dados: Com 30T de tokens, apenas uma pequena parte é de dados de alta qualidade (bilhões de tokens). Reformulamos esses dados para torná-los mais eficientes para o modelo, melhorando a generalização. 3/ Capacidade Agente: Nosso objetivo é melhorar a generalização. O maior desafio é fazer o modelo generalizar bem além de tarefas específicas. O RL melhora isso em relação ao ajuste fino supervisionado (SFT). 4/ Treinamento Nativo de IA: Estamos explorando maneiras mais nativas de IA para treinar modelos. Se a IA puder fazer uma boa pesquisa de alinhamento, ela generalizará melhor, além da otimização de tarefas únicas. 5/ RL vs SFT: A generalização do RL é melhor, pois aprende com amostras em política, mas tem seus limites. O RL ajuda a melhorar tarefas específicas, mas é difícil generalizar para todos os cenários sem tarefas personalizadas. 6/ Contextos Longos: O comprimento do contexto é crucial, precisamos de milhões. O desafio é equilibrar o tamanho do modelo e o comprimento do contexto para um desempenho ideal, já que algumas arquiteturas melhoram com contextos longos, mas pioram com contextos curtos.
90,66K