Wywiad z założycielem Kimi, Zhilinem Yangiem, jest już dostępny. Ponownie, możesz pozwolić Kimi na tłumaczenie dla Ciebie: ) jest tam wiele cennych informacji. Kilka uwag: 1/ Skupienie na modelu bazowym: K2 ma na celu bycie solidnym modelem bazowym. Odkryliśmy, że wzrost danych wysokiej jakości jest powolny, a dane multimodalne nie zwiększają znacząco "IQ" tekstowego. Dlatego koncentrujemy się na maksymalizacji wartości każdego tokena danych — efektywności tokenów. 2/ Przekształcanie danych: Z 30T tokenów tylko mała część to dane wysokiej jakości (miliardy tokenów). Przekształcamy je, aby były bardziej efektywne dla modelu, poprawiając generalizację. 3/ Zdolność agentowa: Dążymy do poprawy generalizacji. Największym wyzwaniem jest sprawienie, aby model dobrze generalizował poza konkretne zadania. RL poprawia to w porównaniu do nadzorowanego dostrajania (SFT). 4/ Szkolenie natywne AI: Badamy bardziej natywne dla AI sposoby szkolenia modeli. Jeśli AI może prowadzić dobre badania nad dostosowaniem, będzie lepiej generalizować, wykraczając poza optymalizację jednego zadania. 5/ RL vs SFT: Generalizacja RL jest lepsza, ponieważ uczy się z próbek on-policy, ale ma swoje ograniczenia. RL pomaga poprawić konkretne zadania, ale trudno jest generalizować do wszystkich scenariuszy bez dostosowanych zadań. 6/ Długie konteksty: Długość kontekstu jest kluczowa, potrzebujemy milionów. Wyzwanie polega na zrównoważeniu rozmiaru modelu i długości kontekstu dla optymalnej wydajności, ponieważ niektóre architektury poprawiają się przy długim kontekście, ale pogarszają się przy krótkich.
81,95K