Ewaluacje agentów kodowania są przydatne do poprawy twojego agenta, ale nie do udowodnienia, że jest najlepszy (cokolwiek to znaczy). Dlatego nie rozmawiamy publicznie o ewaluacjach. Ale wiele osób pyta, więc oto dłuższe wyjaśnienie, dlaczego nie są one znaczące dla porównań agentów. Wczoraj wieczorem, z kaprysu, uruchomiłem ewaluacje Next.js[0] przeciwko @AmpCode i uzyskałem [REDACTED; 𝘐 𝘥𝘰𝘯'𝘵 𝘸𝘢𝘯𝘵 𝘵𝘩𝘪𝘴 𝘵𝘰 𝘣𝘦 𝘢𝘣𝘰𝘶𝘵 𝘵𝘩𝘦 𝘯𝘶𝘮𝘣𝘦𝘳𝘴, 𝘣𝘶𝘵 𝘴𝘤𝘳𝘰𝘭𝘭 𝘥𝘰𝘸𝘯 𝘪𝘧 𝘤𝘶𝘳𝘪𝘰𝘶𝘴]%, znacznie powyżej następnego najwyższego (Claude Code) na poziomie 42%. Następnie poprosiłem kilka innych osób o próbę powtórzenia tych wyników. Inni uzyskali [REDACTED]% dla Amp, niektórzy z AGENTS𛲔md, który brzmiał następująco: > Pracując w projekcie Next.js, zawsze uruchamiaj `npm exec tsc -b`, aby sprawdzić błędy typów, a następnie `npm run build` i `npm run test`, przed zakończeniem. Napraw wszelkie błędy, które widzisz i spróbuj ponownie, aż nie będzie błędów. Kiedy używano Claude Code z tym w CLAUDE𛲔md, uzyskał do 72% (wzrost z 40-42% bez tego). Wnioski: • Prosty plik AGENTS𛲔md znacznie zwiększa wskaźnik sukcesu (w praktyce ~wszyscy prawdziwi użytkownicy go mają, ale ewaluacje rzadko go dostarczają) • Wysoka zmienność między uruchomieniami (szczególnie trudno jest uczynić agentów kodowania deterministycznymi) • Istnieje wiele możliwości niezamierzonego dryfu (martwi mnie, że większość wyników Terminal Bench nie jest niezależnie weryfikowana, na przykład) Ponadto, z tak wieloma różnymi zestawami ewaluacyjnymi, usłyszysz tylko twierdzenia od twórców agentów dotyczące ewaluacji, w których dobrze sobie radzą (p-hacking spotyka "Dlaczego większość opublikowanych wyników badań jest fałszywa"). Byłoby nieuczciwe twierdzić, że te liczby oznaczają, że Amp jest najlepszy. To zbyt sztuczne środowisko i jest zbyt dużo przypadkowości. I nie sądzę, żeby ktokolwiek naprawdę wybierał agenta kodowania na podstawie wyników benchmarków, tym bardziej tych raportowanych przez pierwszą stronę. Ale ewaluacje pomagają nam uczynić Amp lepszym. Możesz zobaczyć z jednego raportu, że Amp nie zdał pewnych przypadków za każdym razem, co zbadamy. I przeprowadzamy wszelkiego rodzaju wąskie ewaluacje, takie jak dla naszego podagenta wyszukiwania[1]. UWAGA: To nie jest zamierzone jako atak na ewaluacje Next.js /wcale/. To świetny zestaw ewaluacyjny ogólnie i spełnia swoją rolę, aby pomóc nam uczynić Amp lepszym w sprawach związanych z Next.js. [REDACTED]: Uzyskałem 50-58% w moich początkowych ewaluacjach Amp, a inni uzyskali 48-76%.