L'intervista del fondatore di Kimi, Zhilin Yang, è disponibile. Ancora una volta, puoi lasciare che Kimi traduca per te: ) ci sono molte intuizioni lì. Diverse considerazioni: 1/ Focus sul Modello Base: K2 mira a essere un solido modello base. Abbiamo scoperto che la crescita dei dati di alta qualità è lenta e i dati multimodali non aumentano significativamente l'"IQ" testuale. Quindi, ci concentriamo sul massimizzare il valore di ogni token di dati — efficienza del token. 2/ Riformulazione dei Dati: Con 30T di token, solo una piccola parte è costituita da dati di alta qualità (miliardi di token). Riformuliamo questi per renderli più efficienti per il modello, migliorando la generalizzazione. 3/ Capacità Agente: Miriamo a migliorare la generalizzazione. La sfida più grande è far sì che il modello generalizzi bene oltre compiti specifici. L'RL migliora questo rispetto al fine-tuning supervisionato (SFT). 4/ Formazione AI-Nativa: Stiamo esplorando modi più nativi per l'AI di addestrare i modelli. Se l'AI può fare una buona ricerca di allineamento, generalizzerà meglio, oltre l'ottimizzazione per singolo compito. 5/ RL vs SFT: La generalizzazione dell'RL è migliore, poiché impara da campioni on-policy, ma ha i suoi limiti. L'RL aiuta a migliorare compiti specifici, ma è difficile generalizzare a tutti gli scenari senza compiti su misura. 6/ Contesti Lunghi: La lunghezza del contesto è cruciale, abbiamo bisogno di milioni. La sfida è bilanciare la dimensione del modello e la lunghezza del contesto per prestazioni ottimali, poiché alcune architetture migliorano con contesti lunghi ma peggiorano con quelli brevi.
81,96K