Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Quinn Slack
CEO și membru al personalului tehnic @sourcegraph @ampcode
More for less: the average paying Amp user now pays ~21% less per day vs. a few weeks ago, while # {threads,messages} {,per user}, users, & total revenue are all growing.
We did this while keeping Amp's `smart` mode quality the same or better, and without subsidizing you (which is unsustainable and leads to bad incentives).
- We shipped /handoff and ripped out compaction. This leads to smaller and more focused threads: better output for less tokens and less money.
- ~20% (and growing) of paying Amp users (excl. enterprise) now also use Amp Free for some threads on any given day, which lets you choose your desired mix of quality/cost.
- We switched Amp's search subagent to Haiku, which makes it ~50% faster with the same eval performance.
- People are publicly sharing some great Amp threads that show off how to use it effectively (mainly small, focused threads).
- And a lot of smaller things.
(p90 paid user spend per day is down ~12%.)
On the Amp team, we're committed to keeping `smart` mode the very best, no matter the cost. Amp Free is proving to be a useful testbed for us to make broad efficiency gains, and as a pressure valve so that we don't need to compromise quality in `smart` mode to reach a broad userbase.
Happy coding!

4,21K
Aveți nevoie de cineva care să se alăture echipei Amp și să ne ajute să creăm infrastructură de reclame și fluxuri de utilizatori pentru Amp Free.
Backend, frontend, livrare de mai multe ori pe zi și lucrul cu clienții. Acest rol este doar în San Francisco. Multă muncă grea și ambiguitate. Trimiteți-mi un DM.
26,63K
Codificarea evaluărilor agenților este utilă pentru a vă îmbunătăți agentul, dar nu pentru a dovedi că este cel mai bun (orice ar însemna asta). De aceea nu vorbim public despre evaluări.
Dar mulți oameni întreabă, așa că iată o explicație mai lungă a motivului pentru care nu sunt semnificative pentru comparația între agenți.
Aseară, dintr-un capriciu, am alergat Next.js evals[0] împotriva @AmpCode și am primit [REDACTED; nu vreau să fie vorba despre numere, dar derulați în jos dacă este curios]%, cu mult peste următorul cel mai mare (Claude Code) la 42%.
Apoi am rugat alți oameni să încerce să reproducă aceste rezultate. Alți oameni au primit [REDACTED]% pentru Amp, unii cu un AGENTS𛲔md care spunea după cum urmează:
> Când lucrați într-un proiect Next.js, rulați întotdeauna 'npm exec tsc -b' pentru a verifica dacă există erori de tip, apoi 'npm run build' și 'npm run test', înainte de a termina. Remediați toate erorile pe care le vedeți și încercați din nou până când nu există erori.
Când am folosit Claude Code cu acesta în CLAUDE𛲔md, a ajuns la 72% (în creștere de la 40-42% fără).
Concluzii:
• Un simplu fișier AGENTS𛲔md crește masiv rata de succes (în practică ~toți utilizatorii reali au unul, dar evaluările rar furnizează unul)
• Variabilitate mare între rulări (este deosebit de greu să faci agenții de codare determiniști)
• Există atât de multe oportunități pentru alte tipuri de derive neintenționate (mă face să fiu nervos că majoritatea rezultatelor Terminal Bench nu sunt validate independent, de exemplu)
De asemenea, cu atât de multe seturi diferite de evaluări care există acum, veți auzi doar afirmațiile de la producătorii de agenți pentru evaluări pe care se întâmplă să se descurce bine (p-hacking-ul întâlnește "De ce majoritatea rezultatelor cercetărilor publicate sunt false").
Ar fi necinstit să pretindem că aceste cifre înseamnă că Amp este cel mai bun. Este un mediu prea artificial și există prea multă aleatorie. Și nu cred că cineva a ales vreodată un agent de codare din cauza rezultatelor de referință, cu atât mai puțin a celor raportate de prima parte.
Dar evaluările ne ajută să facem Amp mai bun. Puteți vedea dintr-un raport că Amp a eșuat anumite cazuri de fiecare dată, pe care îl vom analiza. Și facem tot felul de evaluări înguste, cum ar fi pentru subagentul nostru de căutare[1].
NOTĂ: Acest lucru nu este menit să fie o săpătură împotriva evaluărilor Next.js /at all/. Este un set de evaluare grozav în general și își servește scopul de a ne ajuta să facem Amp mai bun la Next.js lucruri.
[REDACTAT]: Am obținut 50-58% în evaluările mele inițiale de amplificare, iar alții au primit 48-76%.


24,45K
Limită superioară
Clasament
Favorite

