Интервью основателя Kimi, Жилина Яна, вышло. Снова вы можете позволить Kimi переводить для вас: ) там много интересных идей. Несколько выводов: 1/ Фокус на базовой модели: K2 стремится быть надежной базовой моделью. Мы обнаружили, что рост качественных данных медленный, и мультимодальные данные не значительно повышают текстовый "IQ". Поэтому мы сосредотачиваемся на максимизации ценности каждого токена данных — эффективности токенов. 2/ Переформулирование данных: Из 30 триллионов токенов только небольшая часть — это качественные данные (миллиарды токенов). Мы переформулируем их, чтобы сделать их более эффективными для модели, улучшая обобщение. 3/ Агентные способности: Мы стремимся улучшить обобщение. Главная проблема заключается в том, чтобы заставить модель хорошо обобщать за пределами конкретных задач. RL улучшает это по сравнению с контролируемой дообучением (SFT). 4/ Обучение, ориентированное на ИИ: Мы исследуем более ориентированные на ИИ способы обучения моделей. Если ИИ сможет провести хорошее исследование выравнивания, он будет лучше обобщать, выходя за рамки оптимизации одной задачи. 5/ RL против SFT: Обобщение RL лучше, так как он учится на образцах по политике, но у него есть свои ограничения. RL помогает улучшить конкретные задачи, но трудно обобщать на все сценарии без адаптированных задач. 6/ Длинные контексты: Длина контекста имеет решающее значение, нам нужно миллионы. Проблема заключается в балансировке размера модели и длины контекста для оптимальной производительности, так как некоторые архитектуры улучшаются с длинным контекстом, но ухудшаются с короткими.
87,46K