信頼性はエージェントにとって重要なことであり、近い将来、純粋にモデルレイヤーで解決される可能性は低いでしょう。これにより、インフラストラクチャビルダーにとっては新たな材料となり、いくつかの興味深いトレンドが浮かび上がってきています。 1. エージェントのCIとしてのシミュレーション: a) 今日最も価値のあるデータは、軌跡データ、つまりタスク (P) -> {t1, t2...tk} マッピング。軌跡データが増えれば、RFTのような手法でエージェントを改善できます。 b) これらの軌跡は、企業の基礎となるデータ(D)にかなり固有である可能性があるため、3P軌跡データに依存するのではなく、環境内のエージェントの動作を実際にシミュレートできる必要があります。 では、どうすればいいのでしょうか? - エンタープライズのエージェントと MCP レジストリ、およびステージング環境を維持します。各エージェントの目的、アクセスできるツール、各エージェントの範囲と各ツールなどを含むメタデータレイヤーをブートストラップします。SDK では、特定の内部アプリケーションに対して MCP サーバーをオンザフライで生成する必要がある場合があります。 - プロンプト/タスクのバリエーションを提供し、生成されたツール呼び出しを検査し、多目的報酬関数に対するパフォーマンスを評価することにより、各エージェントのステージングでシナリオを実行します(例:目的に対するパフォーマンス、ツール呼び出しの最小化)。 - 重要な要素は、各エージェントに定量化可能な報酬関数を正確に提供することで、忠実度の高い評価を可能にし、信頼性の高いCIのためのループを閉じることです。 - これらすべてを製品化する必要があります:開発者が拡張できる採用しやすいインフラストラクチャですが、バッテリーが含まれています。新しいパラダイムの形成が見え始めています。コードの単体テストではなく、エージェントのシミュレーションハーネスです。 軌跡データを取得するとどうなりますか? 2. 企業は「コンテクストレイク」に移行します。 - デルタレイク/SNOWに保存されたエンタープライズデータによって強化されたエージェントトラジェクトリのハブとして機能する、進化するクエリ可能なメモリレイヤー。ナレッジ ベース、セマンティック キャッシュ、および実行ログの強力な組み合わせ。 - 高QPSをサポートする推論時間検索のための非常に高速な読み取り。 - 以前の投稿で述べたように、セマンティックキャッシュ(スタートアップにとって非常に興味深い機会)は、タスクと軌道のペア(k-meansなど)をクラスター化し、計画やツール選択の際の迅速な取得と「結果の融合」を可能にします。 エージェントは常にコンテキストレイクに浸ります。高QPS、低レイテンシのコンテキストフェッチは、今日の高速エンベデッド検索と同じくらい重要になります。 3. エージェント認証は最優先課題となる: -従来のOAuthおよびAPIキーモデルは、エージェントが長期間のセッションでユーザーと自分自身に代わって行動すると崩壊します。 - エージェントのアイデンティティ、委任、スコーピングのためのフレームワーク、つまりツールレベルの権限、タスクにバインドされた認証情報、委任グラフなどをサポートするフレームワークが必要です。 ソフトウェアのテストは動作のシミュレーション、ソフトウェアのクエリはコンテキストの取得、ソフトウェアの保護は自律エージェントの認証を意味する時代に突入しています。
2.65K