La entrevista del fundador de Kimi, Zhilin Yang, ya está disponible. Nuevamente, puede dejar que Kimi traduzca por usted: ) muchas ideas allí. Varias tomas: 1/ Enfoque del modelo base: K2 pretende ser un modelo base sólido. Hemos descubierto que el crecimiento de los datos de alta calidad es lento y que los datos multimodales no aumentan significativamente el "coeficiente intelectual" textual. Por lo tanto, nos enfocamos en maximizar el valor de cada token de datos: la eficiencia del token. 2/ Reformulación de datos: Con los tokens 30T, solo una pequeña parte son datos de alta calidad (miles de millones de tokens). Los reformulamos para hacerlos más eficientes para el modelo, mejorando la generalización. 3/ Habilidad Agencial: Nuestro objetivo es mejorar la generalización. El mayor desafío es hacer que el modelo se generalice mucho más allá de las tareas específicas. RL mejora este ajuste fino supervisado (SFT). 4/ Entrenamiento nativo de IA: Estamos explorando más formas nativas de IA para entrenar modelos. Si la IA puede hacer una buena investigación de alineación, generalizará mejor, más allá de la optimización de una sola tarea. 5/ RL vs SFT: La generalización de RL es mejor, ya que aprende de muestras sobre políticas, pero tiene sus límites. RL ayuda a mejorar tareas específicas, pero es difícil generalizar a todos los escenarios sin tareas personalizadas. 6/ Contextos largos: La longitud del contexto es crucial, necesitamos millones. El desafío es equilibrar el tamaño del modelo y la longitud del contexto para un rendimiento óptimo, ya que algunas arquitecturas mejoran con un contexto largo pero empeoran con contextos cortos.
81.95K