熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
可靠性是代理商的核心,而在可預見的未來,這不太可能僅僅在模型層面上解決。這為基礎設施建設者創造了綠芽,幾個有趣的趨勢開始出現:
1. 將模擬作為代理的持續集成:
a) 當前最有價值的數據是軌跡數據,即任務 (P) -> {t1, t2... tk} 的映射集合。隨著更多的軌跡數據,代理可以通過 RFT 等技術進行改進。
b) 由於這些軌跡可能非常特定於公司的基礎數據 (D),您需要能夠實際模擬代理在您的環境中的行為,而不是依賴第三方的軌跡數據。
那麼,您該如何做到這一點?
- 為企業維護代理和 MCP 註冊表,以及一個暫存環境。啟動一個元數據層,包含每個代理的目標、其可訪問的工具、每個代理相對於每個工具的範圍等。您的 SDK 可能需要為某些內部應用程序即時生成 MCP 伺服器。
- 通過提供提示/任務變體,在暫存環境中執行每個代理的場景,檢查產生的工具調用並根據多目標獎勵函數(例如,對目標的性能、工具調用的最小化)評估性能。
- 一個關鍵組成部分是準確提供每個代理的可量化獎勵函數,以解鎖高保真評估並閉合可靠的持續集成循環。
- 所有這些都需要產品化:易於採用的基礎設施,開發人員可以擴展,但內置電池。您可以開始看到一種新範式的形成——不是代碼的單元測試,而是代理的模擬工具。
當您獲得軌跡數據時會發生什麼?
2. 企業將轉向 "上下文湖":
- 一個不斷發展的、可查詢的記憶層,作為代理軌跡的中心,這些軌跡由存儲在增量湖/SNOW 的企業數據豐富。這是一個知識庫、語義緩存和執行日誌的強大混合。
- 用於推理時檢索的極快讀取,支持高 QPS。
- 如前一篇文章所提到的,語義緩存(對初創企業來說非常有趣的機會)將聚類任務–軌跡對(例如,通過 k-means),在規劃或工具選擇過程中實現快速檢索和“結果融合”。
代理將不斷進入上下文湖。高 QPS、低延遲的上下文提取將變得與今天的快速嵌入搜索一樣重要。
3. 代理身份驗證成為一個首要關注點:
- 當代理代表用戶和自己行動,跨越長期會話時,傳統的 OAuth 和 API 密鑰模型會崩潰。
- 您需要一個支持工具級別權限、任務綁定憑證和委派圖的代理身份、委派和範圍的框架。
我們正進入一個時代,測試軟件意味著模擬行為,查詢軟件意味著檢索上下文,而保護軟件意味著驗證自主代理。
2.65K
熱門
排行
收藏