Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Eval agen pengkodean berguna untuk membuat agen Anda lebih baik, tetapi bukan untuk membuktikan itu yang terbaik (apa pun artinya). Itu sebabnya kami tidak berbicara di depan umum tentang eval.
Tetapi banyak orang bertanya, jadi inilah penjelasan yang lebih panjang tentang mengapa mereka tidak berarti untuk perbandingan agen-ke-agen.
Tadi malam, dengan iseng, saya menjalankan Next.js evals[0] melawan @AmpCode dan mendapatkan [REDACTED; Saya tidak ingin ini tentang angka, tetapi gulir ke bawah jika penasaran]%, jauh di atas tertinggi berikutnya (Claude Code) pada 42%.
Saya kemudian meminta beberapa orang lain untuk mencoba meniru hasil ini. Orang lain mendapat [REDACTED]% untuk Amp, beberapa dengan AGENT𛲔md yang berbunyi sebagai berikut:
> Saat bekerja dalam proyek Next.js, selalu jalankan 'npm exec tsc -b' untuk memeriksa kesalahan jenis, lalu 'npm run build' dan 'npm run test', sebelum menyelesaikannya. Perbaiki kesalahan yang Anda lihat dan coba lagi hingga tidak ada kesalahan.
Saat menggunakan Claude Code dengan itu di CLAUDE𛲔md, itu naik menjadi 72% (naik dari 40-42% tanpa).
Kesimpulan:
• File AGENTS𛲔md sederhana secara besar-besaran meningkatkan tingkat keberhasilan (dalam praktiknya ~semua pengguna nyata memilikinya, tetapi evals jarang menyediakannya)
• Variabilitas tinggi di seluruh proses (sangat sulit untuk membuat agen pengkodean deterministik)
• Begitu banyak peluang yang ada untuk jenis penyimpangan lain yang tidak disengaja (membuat saya gugup bahwa sebagian besar hasil Terminal Bench tidak divalidasi secara independen, misalnya)
Juga, dengan begitu banyak set eval yang berbeda di luar sana sekarang, Anda hanya akan mendengar klaim dari pembuat agen untuk eval yang kebetulan mereka lakukan dengan baik (p-hacking memenuhi "Mengapa Temuan Penelitian Paling Banyak yang Diterbitkan Salah").
Tidak jujur untuk mengklaim bahwa angka-angka ini berarti Amp adalah yang terbaik. Lingkungan ini terlalu artifisial dan ada terlalu banyak keacakan. Dan saya rasa tidak ada yang benar-benar pernah memilih agen pengkodean karena hasil benchmark, apalagi yang dilaporkan pihak pertama.
Tapi evals membantu kami membuat Amp lebih baik. Anda dapat melihat dari satu laporan bahwa Amp gagal dalam kasus tertentu setiap saat, yang akan kita periksa. Dan kami melakukan semua jenis eval sempit, seperti untuk subagen pencarian kami[1].
CATATAN: Ini tidak dimaksudkan sebagai penggalian terhadap Next.js evals /sama sekali/. Ini adalah set eval yang bagus secara keseluruhan dan melayani tujuannya untuk membantu kami membuat Amp lebih baik dalam hal Next.js.
[DISUNTING]: Saya mendapat 50-58% dalam eval Amp awal saya, dan yang lain mendapat 48-76%.


Teratas
Peringkat
Favorit

