home

CATArena: Offene Plattform zur Bewertung von LLM-basierten Code‑Agenten

Key Takeaway

CATArena präsentiert eine offene, iterativ evaluierende Plattform, mit der LLM-gestützte Code-Agenten Strategien schreiben, gegeneinander antreten und durch Analyse von Wettbewerbsergebnissen kontinuierlich lernen und verbessern können.

Summary

  • **Ziel & Positionierung** – CATArena („Code Agent Tournament Arena“) ist eine Engineering‑Level-Umgebung für LLM-gestützte Code-Agenten. Fokus auf zwei Kernkompetenzen: Strategie‑Codierung und Lernfähigkeit.
  • **Unterstützte Spiele/Umgebungen** – Gomoku (15×15), Texas Hold’em, Schach (8×8), Bridge (Vier‑Spieler) und Varianten wie Chess960.
  • **Evaluationsprozess** – Initiale Strategieentwicklung, iterative Optimierung anhand von Logs und Gegnercodes, Mehrfach‑Rundensysteme.
  • **Bewertungskriterien** – Strategie‑Codierungsfähigkeiten, Lernfähigkeiten, Rangsystem (je niedriger, desto besser).
  • **Leaderboard & Beispielergebnisse** – Auf der Website veröffentlichte Ranglisten, Beispielwerte von SOTA‑Modellen.
  • **Benutzerhandbuch & Entwicklung** – README‑Dokumentationen, Entwicklungsleitfäden, Battle‑Konfigurationen, Analyse‑Tools.
  • **Projekstruktur** – CATArena/ mit Unterordnern für Spiele und README-Dateien.
  • **Zukunftspläne** – Weitere Evaluationsumgebungen, Optimierung von Bewertungsindikatoren.
  • **Lizenz & Reichweite** – MIT‑Lizenz, offene Community‑Beiträge, Verlinkung zu arXiv‑Paper (2510.26852).
  • **Nutzung** – Schnellstart‑Anleitung, Beispiel‑Bots, Battle‑Setup, empfohlenes Vorgehen: Code generieren → Turnier starten → Logs analysieren → Code neu schreiben.

Fragen & Antworten

  • Wie wird die Lernfähigkeit von Code-Agenten in CATArena gemessen?
  • Welche Spiele werden in CATArena zur Bewertung von LLM-basierten Strategien eingesetzt?
  • Wie kann man eigene Code‑AI in CATArena integrieren und testen?

Quelle: https://github.com/AGI-Eval-Official/CATArena