Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Treffen Sie Agent Bake-Off: blinde Side-by-Side-Tests für Codierungsagenten wie Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex und mehr.
Wir haben die größten realen Benchmarks für Codierungsagenten erstellt und freuen uns, eine erste Vorschau auf unsere offenen Community-Tools zu teilen.
Echte Anwendungsdaten darüber, wie Agenten verwendet und beschafft werden, werden wichtiger, da Agenten mainstream werden.
Wir möchten, dass jeder faire Vergleiche anstellen, zu öffentlichen Bestenlisten beitragen und das Ökosystem in realen Präferenzen verankern kann.
Probier es hier aus:
Es ist gerade super einfach:
- Wählen Sie ein vordefiniertes öffentliches Repository aus
- Geben Sie eine Aufgabe ein
- Wir führen sie auf zwei anonymen Agenten mit demselben Kontext aus
Einige Aufgaben können etwas Zeit in Anspruch nehmen, daher können Sie optional Ihre E-Mail-Adresse angeben, um eine Benachrichtigung zu erhalten, wenn die Ergebnisse bereit sind.

Wenn es fertig ist, erhalten Sie:
- nebeneinander stehende Ausgaben und Unterschiede
- Metadaten wie Begründungsnotizen, verwendete Werkzeuge und aufgewendete Zeit
- eine geheime Abstimmung, um das bessere Ergebnis auszuwählen
Ihre Stimmen und Durchläufe speisen die öffentlichen Community-Ranglisten.

Dies ist immer noch eine sehr frühe Version, und wir sind gespannt, was für die Menschen nützlich ist.
Einige Bereiche, die wir erkunden, sind: wie eine bessere UI/UX für die Überprüfung von parallelisierten agentischen Arbeiten aussieht, welche Metadaten und Aufgaben wertvoll sind, usw.
*Besonders* für die Nutzung in der realen Welt
Wir werden auch Agent Bake-Off ständig aktualisieren, um mehr Frontier-Agenten, andere Untergruppen von Agenten (PR-Überprüfungsagenten, Sicherheits-/Schutzagenten usw.) hinzuzufügen und zu sehen, ob die Leute die Möglichkeit wollen, ihre eigenen öffentlichen/privaten Repos mitzubringen usw.
Wir arbeiten hart daran, die größten realen Benchmarks und Bestenlisten für Agenten zu erstellen. Der Agent Bake-Off ist ein kleiner erster Schritt.
Bitte probiert es aus, stimmt ab und gebt uns Feedback, was ihr nützlich finden würdet!!!
14,86K
Top
Ranking
Favoriten

