Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Pålitelighet er navnet på spillet for agenter, og det vil neppe bli løst utelukkende på modelllaget i overskuelig fremtid. Dette skaper grønne skudd for infrastrukturbyggere, med noen interessante trender som begynner å dukke opp:
1. Simulering som CI for agenter:
a) Den mest verdifulle databiten i dag er banedata, det vil si samlinger av oppgave (P) -> {t1, t2... tk}-tilordninger. Med flere banedata kan agenter forbedres med teknikker som RFT.
b) Siden disse banene kan være ganske spesifikke for et selskaps underliggende data (D), må du faktisk kunne simulere oppførselen til agenter i miljøet ditt kontra stole på 3P-banedata.
Så, hvordan kan du gjøre dette?
- Oppretthold et agent- og MCP-register for en bedrift og et oppsamlingsmiljø. Bootstrap et metadatalag som inneholder målet til hver agent, verktøyene den har tilgang til, omfanget av hver agent vis.a.vis hvert verktøy osv. SDK-en din må kanskje generere MCP-servere på farten for visse interne applikasjoner.
- Utfør scenarier i iscenesettelse for hver agent ved å gi prompt/oppgavevariasjoner, inspisere verktøykallene som produseres og evaluere ytelsen mot en multi-objektiv belønningsfunksjon (f.eks. ytelse mot målet, minimering av verktøypåkallinger).
- En kritisk komponent er nøyaktig å gi kvantifiserbare belønningsfunksjoner for hver agent som låser opp high-fidelity-evalueringer og lukker sløyfen for pålitelig CI.
- Alt dette må produktiseres: infrastruktur som er enkel å ta i bruk og som utviklere kan utvide, men med batterier inkludert. Du kan begynne å se et nytt paradigme danne seg – ikke enhetstester for kode, men simuleringsseler for agenter.
Hva skjer når du får banedata?
2. Bedrifter vil flytte til "kontekstinnsjøer":
- Et utviklende, spørringsbart minnelag som fungerer som et knutepunkt for agentbaner beriket med bedriftsdata lagret i deltasjøen / SNOW. En potent blanding av en kunnskapsbase, en semantisk cache og en utførelseslogg.
- Ekstremt raske avlesninger for henting av slutningstid som støtter høy QPS.
- Som nevnt i et tidligere innlegg, vil den semantiske cachen (virkelig interessant mulighet for oppstartsbedrifter) klynge oppgave-banepar (f.eks. via k-means), noe som muliggjør rask gjenfinning og "resultatsammenslåing" under planlegging eller verktøyvalg.
Agenter vil dyppe ned i kontekstsjøen hele tiden. Konteksthenting med høy QPS og lav latens vil bli like viktig som raskt innebyggingssøk er i dag.
3. Agentautentisering blir en førsteklasses bekymring:
-Tradisjonelle OAuth- og API-nøkkelmodeller brytes ned når agenter handler på vegne av brukere og seg selv, på tvers av langvarige økter.
-Du trenger et rammeverk for agentidentitet, delegering og omfang – et som støtter ting som tillatelser på verktøynivå, oppgavebundet legitimasjon og delegeringsgrafer.
Vi går inn i en tid der testing av programvare betyr å simulere atferd, spørre etter programvare betyr å hente kontekst, og sikring av programvare betyr å autentisere autonome agenter.
2,65K
Topp
Rangering
Favoritter