La confiabilidad es el nombre del juego para los agentes, y es poco probable que se resuelva puramente en la capa del modelo en el futuro previsible. Esto está creando brotes verdes para los constructores de infraestructura, con algunas tendencias interesantes que comienzan a surgir: 1. Simulación como CI para agentes: a) El dato más valioso hoy en día son los datos de trayectoria, es decir, colecciones de tareas (P) -> {t1, t2... tk}. Con más datos de trayectoria, los agentes se pueden mejorar con técnicas como RFT. b) Dado que estas trayectorias pueden ser bastante específicas de los datos subyacentes de una empresa (D), debe poder simular realmente el comportamiento de los agentes dentro de su entorno en lugar de confiar en los datos de trayectoria 3P. Entonces, ¿cómo podrías hacer esto? - Mantener un registro de agentes y MCP para una empresa, y un entorno de prueba. Arranque una capa de metadatos que contenga el objetivo de cada agente, las herramientas a las que tiene acceso, el alcance de cada agente frente a cada herramienta, etc. Es posible que su SDK necesite generar servidores MCP sobre la marcha para ciertas aplicaciones internas. - Ejecutar escenarios en staging para cada agente proporcionando variaciones de prompt / task, inspeccionando las llamadas a herramientas producidas y evaluando el rendimiento frente a una función de recompensa multiobjetivo (por ejemplo, rendimiento frente al objetivo, minimización de las invocaciones de herramientas). - Un componente crítico es proporcionar con precisión funciones de recompensa cuantificables para cada agente que desbloquean evaluaciones de alta fidelidad y cierran el ciclo para una CI confiable. - Todo esto debe ser producido: infraestructura fácil de adoptar que los desarrolladores puedan ampliar, pero con baterías incluidas. Puede comenzar a ver la formación de un nuevo paradigma, no pruebas unitarias para código, sino arneses de simulación para agentes. ¿Qué sucede cuando obtienes datos de trayectoria? 2. Las empresas se trasladarán a "lagos de contexto": - Una capa de memoria consultable en evolución que sirve como centro para las trayectorias de los agentes enriquecidas por los datos empresariales almacenados en el lago delta / SNOW. Una potente combinación de una base de conocimiento, una caché semántica y un registro de ejecución. - Lecturas extremadamente rápidas para la recuperación del tiempo de inferencia que admite QPS alto. - Como se mencionó en una publicación anterior, el caché semántico (una oportunidad realmente interesante para las startups) agrupará pares de tareas-trayectorias (por ejemplo, a través de k-means), lo que permitirá una recuperación rápida y una "fusión de resultados" durante la planificación o la selección de herramientas. Los agentes se sumergirán en el lago de contexto constantemente. La recuperación de contexto de alta QPS y baja latencia será tan importante como lo es hoy en día la búsqueda de incrustación rápida. 3. La autenticación de agentes se convierte en una preocupación de primera clase: -Los modelos tradicionales de claves de API y OAuth se rompen cuando los agentes actúan en nombre de los usuarios y de sí mismos, en sesiones de larga duración. -Necesita un marco para la identidad, la delegación y el alcance de los agentes, uno que admita cosas como permisos a nivel de herramienta, credenciales vinculadas a tareas y gráficos de delegación. Estamos entrando en una era en la que probar software significa simular comportamiento, consultar software significa recuperar contexto y proteger el software significa autenticar agentes autónomos.
2.68K