Надійність – це назва гри для агентів, і навряд чи вона буде вирішена суто на модельному рівні в осяжному майбутньому. Це створює зелені паростки для будівельників інфраструктури, і починають вимальовуватися кілька цікавих тенденцій: 1. Моделювання як КІ для агентів: а) Найціннішим фрагментом даних на сьогоднішній день є дані траєкторії, тобто колекції задачі (P) -> {t1, t2... тк} відображення. Маючи більше даних про траєкторії, агенти можуть бути вдосконалені за допомогою таких методів, як RFT. б) Оскільки ці траєкторії можуть бути досить специфічними для базових даних компанії (D), ви повинні бути в змозі фактично моделювати поведінку агентів у вашому середовищі, а не покладатися на дані траєкторії 3P. Отже, як ви можете це зробити? - Ведення реєстру агентів і MCP для підприємства, а також проміжного середовища. Bootstrap – це шар метаданих, який містить мету кожного агента, інструменти, до яких він має доступ, область застосування кожного агента vis.a.vis кожного інструменту тощо. Вашому SDK може знадобитися генерувати сервери MCP на льоту для певних внутрішніх програм. - Виконуйте сценарії в стадії для кожного агента, надаючи швидкі варіації / варіації завдань, перевіряючи вироблені виклики інструментів і оцінюючи продуктивність за багатоцільовою функцією винагороди (наприклад, продуктивність проти мети, мінімізація викликів інструментів). - Критично важливим компонентом є точне надання кількісно вимірюваних функцій винагороди для кожного агента, які розблоковують високоточні евалі та замикають цикл для надійного КІ. - Все це має бути продуктивним: проста у використанні інфраструктура, яку розробники можуть розширити, але з батареями в комплекті. Ви можете почати бачити, як формується нова парадигма — не модульні тести для коду, а симуляційні обмани для агентів. Що відбувається, коли ви отримуєте дані про траєкторію? 2. Підприємства перейдуть на «озера контексту»: - Еволюціонуючий шар пам'яті з можливістю запитів, який служить вузлом для траєкторій агентів, збагачених корпоративними даними, що зберігаються в дельта-озері / SNOW. Потужне поєднання бази знань, семантичного кешу та журналу виконання. - Надзвичайно швидке зчитування для отримання даних під час висновків, що підтримує високий QPS. - Як згадувалося в попередньому пості, семантичний кеш (дійсно цікава можливість для стартапів) буде кластеризувати пари завдання-траєкторії (наприклад, за допомогою k-середніх), забезпечуючи швидке отримання та «злиття результатів» під час планування або вибору інструменту. Агенти будуть постійно занурюватися в озеро контексту. Висока QPS, контекстна вибірка з низькою затримкою стануть такими ж важливими, як і швидкий пошук вбудовування сьогодні. 3. Аутентифікація агента стає першокласною проблемою: - Традиційні моделі OAuth і API ключів руйнуються, коли агенти діють від імені користувачів і самих себе протягом тривалих сеансів. - Вам потрібна структура для ідентифікації агента, делегування та визначення обсягу — така, яка підтримує такі речі, як дозволи на рівні інструменту, облікові дані з прив'язкою до завдань і графіки делегування. Ми вступаємо в епоху, коли тестування програмного забезпечення означає імітацію поведінки, запити до програмного забезпечення означає отримання контексту, а захист програмного забезпечення означає аутентифікацію автономних агентів.
2,68K