可靠性是代理的游戏名称,在可预见的未来,这不太可能仅仅在模型层面上解决。这为基础设施建设者创造了新的机会,几个有趣的趋势开始出现: 1. 将模拟作为代理的持续集成: a) 今天最有价值的数据是轨迹数据,即任务 (P) -> {t1, t2... tk} 映射的集合。随着轨迹数据的增加,可以通过 RFT 等技术来改进代理。 b) 由于这些轨迹可能非常特定于公司的基础数据 (D),您需要能够在您的环境中实际模拟代理的行为,而不是依赖第三方轨迹数据。 那么,您可能如何做到这一点? - 为企业维护代理和 MCP 注册表,以及一个暂存环境。引导一个元数据层,包含每个代理的目标、它可以访问的工具、每个代理与每个工具的范围等。您的 SDK 可能需要为某些内部应用程序动态生成 MCP 服务器。 - 通过提供提示/任务变体,在暂存中为每个代理执行场景,检查生成的工具调用并根据多目标奖励函数(例如,针对目标的性能、工具调用的最小化)评估性能。 - 一个关键组成部分是准确提供每个代理的可量化奖励函数,以解锁高保真评估并闭合可靠的持续集成循环。 - 所有这些都需要产品化:易于采用的基础设施,开发人员可以扩展,但要包含必要的功能。您可以开始看到一个新范式的形成——不是代码的单元测试,而是代理的模拟工具。 当您获得轨迹数据时会发生什么? 2. 企业将转向“上下文湖”: - 一个不断发展的、可查询的记忆层,作为代理轨迹的中心,丰富了存储在增量湖/SNOW 中的企业数据。知识库、语义缓存和执行日志的强大组合。 - 用于推理时检索的极快读取,支持高 QPS。 - 正如之前的帖子中提到的,语义缓存(对初创公司来说非常有趣的机会)将聚类任务-轨迹对(例如,通过 k-means),在规划或工具选择期间实现快速检索和“结果融合”。 代理将不断访问上下文湖。高 QPS、低延迟的上下文获取将变得与今天的快速嵌入搜索同样重要。 3. 代理身份验证成为一项首要关注事项: - 当代理代表用户和自己在长期会话中行动时,传统的 OAuth 和 API 密钥模型会崩溃。 - 您需要一个支持工具级权限、任务绑定凭证和委托图的代理身份、委托和范围的框架。 我们正进入一个时代,在这个时代,测试软件意味着模拟行为,查询软件意味着检索上下文,而保护软件意味着对自主代理进行身份验证。
2.65K