A entrevista do fundador da Kimi, Zhilin Yang, foi divulgada. Novamente, você pode deixar Kimi traduzir para você: ) muitos insights lá. Várias tomadas: 1/ Foco no modelo básico: O K2 pretende ser um modelo básico sólido. Descobrimos que o crescimento de dados de alta qualidade é lento e os dados multimodais não aumentam significativamente o "QI" textual. Portanto, nos concentramos em maximizar o valor de cada token de dados - eficiência do token. 2/ Reformulação de dados: Com tokens 30T, apenas uma pequena parte são dados de alta qualidade (bilhões de tokens). Nós os reformulamos para torná-los mais eficientes para o modelo, melhorando a generalização. 3/ Habilidade Agêntica: Nosso objetivo é melhorar a generalização. O maior desafio é fazer com que o modelo generalize muito além de tarefas específicas. O RL melhora isso em relação ao ajuste fino supervisionado (SFT). 4/ Treinamento nativo de IA: Estamos explorando mais maneiras nativas de IA de treinar modelos. Se a IA puder fazer uma boa pesquisa de alinhamento, ela generalizará melhor, além da otimização de uma única tarefa. 5/ RL vs SFT: A generalização de RL é melhor, pois aprende com amostras de políticas, mas tem seus limites. A RL ajuda a melhorar tarefas específicas, mas é difícil generalizar para todos os cenários sem tarefas personalizadas. 6/ Contextos longos: O comprimento do contexto é crucial, precisamos de milhões. O desafio é equilibrar o tamanho do modelo e o comprimento do contexto para obter o desempenho ideal, pois algumas arquiteturas melhoram com o contexto longo, mas pioram com o curto.
90,66K