Ставка робиться на побудову системи безперервного навчання. Що це означає? Оновлення Cursor є робочим прикладом. Надходять нові дані, система вміє фільтрувати найцінніші зразки. Потім він використовує RL/інші алгоритми для розгортання контрольної точки, навченої з використанням зазначених даних.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 серп. 2025 р.
Ми представляємо кращий рецепт збору даних після тренування при використанні GRPO. Збір зразків у експертів коштує дорого, бюджети анотацій обмежені. За які приклади насправді варто платити? Ми виявили, що зосередження уваги на твердих зразках призводить до покращення на 30-40%. 1/7
Кожен компонент спочатку потрібно уважно вивчити, щоб побудувати мета-алгоритм, який зможе працювати з такою системою. Під час тренувальної пробіжки він може оцінити, продовжувати чи зупиняти біг на основі ранніх ознак. Для цього в таку систему перетравлюються інсайти зі 100 пробіжок.
Цей напрямок роботи запускає цей процес для обґрунтування проблем з винагородами, які можна перевірити. Так як це найбільш «стабільний» параметр для побудови простого пайплайну для навчання. Наступними рубежами будуть LLM-as-judge і довгострокові налаштування відкладених винагород.
1K