Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'affidabilità è il nome del gioco per gli agenti, e non è probabile che venga risolta puramente a livello di modello nel prossimo futuro. Questo sta creando opportunità per i costruttori di infrastrutture, con alcune tendenze interessanti che iniziano a emergere:
1. Simulazione come CI per agenti:
a) Il pezzo di dati più prezioso oggi è il dato di traiettoria, ovvero collezioni di compiti (P) -> {t1, t2... tk} mappature. Con più dati di traiettoria, gli agenti possono essere migliorati con tecniche come RFT.
b) Poiché queste traiettorie possono essere abbastanza specifiche per i dati sottostanti di un'azienda (D), è necessario essere in grado di simulare effettivamente il comportamento degli agenti all'interno del proprio ambiente rispetto a fare affidamento sui dati di traiettoria di terze parti.
Quindi, come potresti fare questo?
- Mantieni un registro di agenti e MCP per un'impresa, e un ambiente di staging. Avvia un livello di metadati che contiene l'obiettivo di ciascun agente, gli strumenti a cui ha accesso, l'ambito di ciascun agente rispetto a ciascun strumento, ecc. Il tuo SDK potrebbe dover generare server MCP al volo per alcune applicazioni interne.
- Esegui scenari in staging per ciascun agente fornendo variazioni di prompt / compito, ispezionando le chiamate agli strumenti prodotte e valutando le prestazioni rispetto a una funzione di ricompensa multi-obiettivo (ad es. prestazioni rispetto all'obiettivo, minimizzazione delle invocazioni degli strumenti).
- Un componente critico è fornire in modo accurato funzioni di ricompensa quantificabili per ciascun agente che sbloccano valutazioni ad alta fedeltà e chiudono il ciclo per una CI affidabile.
- Tutto questo deve essere prodotto: infrastruttura facile da adottare che gli sviluppatori possono estendere, ma con batterie incluse. Puoi iniziare a vedere formarsi un nuovo paradigma: non test unitari per il codice, ma telai di simulazione per agenti.
Cosa succede quando ottieni dati di traiettoria?
2. Le imprese si sposteranno verso i "laghi di contesto":
- Un livello di memoria in evoluzione e interrogabile che funge da hub per le traiettorie degli agenti arricchite dai dati aziendali memorizzati nel delta lake / SNOW. Un mix potente di una base di conoscenza, una cache semantica e un registro di esecuzione.
- Letture estremamente veloci per il recupero in tempo di inferenza che supportano un alto QPS.
- Come menzionato in un post precedente, la cache semantica (veramente interessante opportunità per le startup) raggrupperà coppie compito–traiettoria (ad es., tramite k-means), consentendo un recupero rapido e "fusione dei risultati" durante la pianificazione o la selezione degli strumenti.
Gli agenti attingeranno costantemente al lago di contesto. Il recupero di contesto ad alta QPS e bassa latenza diventerà importante quanto la ricerca di embedding veloce è oggi.
3. L'autenticazione degli agenti diventa una preoccupazione di prima classe:
- I modelli tradizionali di OAuth e chiavi API si rompono quando gli agenti agiscono per conto degli utenti e di se stessi, attraverso sessioni a lungo termine.
- Hai bisogno di un framework per l'identità degli agenti, la delega e la definizione dell'ambito—uno che supporti cose come permessi a livello di strumento, credenziali legate ai compiti e grafi di delega.
Stiamo entrando in un'era in cui testare il software significa simulare il comportamento, interrogare il software significa recuperare contesto, e garantire la sicurezza del software significa autenticare agenti autonomi.
2,65K
Principali
Ranking
Preferiti