Keandalan adalah nama permainan untuk agen, dan tidak mungkin diselesaikan murni di lapisan model untuk masa mendatang. Ini menciptakan tunas hijau untuk pembangun infrastruktur, dengan beberapa tren menarik mulai muncul: 1. Simulasi sebagai CI untuk agen: a) Data yang paling berharga saat ini adalah data lintasan yaitu kumpulan tugas (P) -> {t1, t2... pemetaan tk}. Dengan lebih banyak data lintasan, agen dapat ditingkatkan dengan teknik seperti RFT. b) Karena lintasan ini bisa sangat spesifik untuk data dasar perusahaan (D), Anda harus benar-benar dapat mensimulasikan perilaku agen dalam lingkungan Anda vs. mengandalkan data lintasan 3P. Jadi, bagaimana Anda bisa melakukan ini? - Memelihara registri agen dan MCP untuk perusahaan, dan lingkungan pementasan. Bootstrap lapisan metadata yang berisi tujuan setiap agen, alat yang dapat diaksesnya, ruang lingkup setiap agen vis.a.vis setiap alat, dll. SDK Anda mungkin perlu membuat server MCP dengan cepat untuk aplikasi internal tertentu. - Jalankan skenario dalam pementasan untuk setiap agen dengan memberikan variasi prompt / tugas, memeriksa panggilan alat yang dihasilkan dan mengevaluasi kinerja terhadap fungsi hadiah multi-tujuan (misalnya kinerja terhadap tujuan, meminimalkan pemanggilan alat). - Komponen penting secara akurat menyediakan fungsi hadiah yang dapat diukur untuk setiap agen yang membuka kunci eval fidelitas tinggi dan menutup lingkaran untuk CI yang andal. - Semua ini perlu diproduksi: infrastruktur yang mudah diadopsi yang dapat diperluas oleh pengembang, tetapi dengan baterai yang disertakan. Anda dapat mulai melihat paradigma baru terbentuk—bukan pengujian unit untuk kode, tetapi harness simulasi untuk agen. Apa yang terjadi jika Anda mendapatkan data lintasan? 2. Perusahaan akan pindah ke "danau konteks": - Lapisan memori yang berkembang dan dapat dikueri yang berfungsi sebagai hub untuk lintasan agen yang diperkaya oleh data perusahaan yang disimpan di danau delta / SNOW. Campuran kuat dari basis pengetahuan, cache semantik, dan log eksekusi. - Pembacaan yang sangat cepat untuk pengambilan waktu inferensi yang mendukung QPS tinggi. - Seperti yang disebutkan dalam posting sebelumnya, cache semantik (peluang yang sangat menarik untuk startup) akan mengelompokkan pasangan tugas-lintasan (misalnya, melalui k-means), memungkinkan pengambilan cepat dan "penggabungan hasil" selama perencanaan atau pemilihan alat. Agen akan terus masuk ke danau konteks. QPS tinggi dan pengambilan konteks latensi rendah akan menjadi sama pentingnya dengan pencarian penyematan cepat saat ini. 3. Otentikasi agen menjadi perhatian kelas satu: -Model kunci OAuth dan API tradisional rusak saat agen bertindak atas nama pengguna dan diri mereka sendiri, di seluruh sesi berumur panjang. -Anda memerlukan kerangka kerja untuk identitas agen, delegasi, dan cakupan—yang mendukung hal-hal seperti izin tingkat alat, kredensial terikat tugas, dan grafik delegasi. Kita memasuki era di mana menguji perangkat lunak berarti mensimulasikan perilaku, mengkueri perangkat lunak berarti mengambil konteks, dan mengamankan perangkat lunak berarti mengautentikasi agen otonom.
2,65K