Наконец-то нашел хорошее применение для субагентов. Уменьшение моделей политики с помощью автоматического создания RL окружений на основе данных реальных задач. Черт возьми, это действительно работает