home

LMArena Leaderboards 2024: Google Gemini Pro dominiert, GPT‑5 & Claude folgen

Text (1 Tag Alt)

  • gemini‑3‑pro: Score 1490, 19 627 Votes
  • grok‑4.1‑thinking: Score 1477, 20 493 Votes
  • gemini‑3‑flash: Score 1476, 4 830 Votes
  • claude‑opus‑4‑5‑…: Score 1465‑1451

WebDev (1 Tag Alt)

  • claude‑opus‑4‑5‑… (thinking‑32k): Score 1522, 3 971 Votes
  • gpt‑5.2‑high: Score 1484, 1 647 Votes
  • claude‑opus‑4‑5‑: Score 1480, 3 877 Votes
  • gemini‑3‑pro: Score 1479, 8 922 Votes

Vision (6 Tage Alt)

  • gemini‑3‑pro: Score 1309, 4 329 Votes
  • gemini‑3‑flash: Score 1284, 529 Votes
  • gemini‑3‑flash (thinking‑minimal): Score 1268, 520 Votes
  • gpt‑5.1‑high: Score 1249, 2 197 Votes
  • gemini‑2.5‑pro: Score 1249, 65 685 Votes
  • gpt‑5.1: Score 1239, 2 273 Votes
  • chatgpt‑4o‑latest: Score 1236, 17 714 Votes

Text‑to‑Image (6 Tage Alt)

  • gpt‑image‑1.5: Score 1264, 8 871 Votes
  • gemini‑3‑pro‑image‑preview (nano‑banana‑…): Score 1235, 13 764 bzw. 43 546 Votes
  • flux‑2‑max: Score 1168, 5 388 Votes
  • flux‑2‑flex: Score 1157, 23 330 Votes
  • gemini‑2.5‑flash‑image‑preview: Score 1155, 649 795 Votes

Image‑Edit (5 Tage Alt)

  • chatgpt‑image‑latest (20251216): Score 1415, 28 416 Votes
  • gemini‑3‑pro‑image‑preview (nano‑banana‑…): Score 1407, 53 842 Votes

Allgemeines: Scores messen die Modellleistung im jeweiligen Benchmark, Votes spiegeln die Community‑Meinung wider. Google‑Gemini‑Pro und die verschiedenen „Thinking“-Varianten dominieren fast alle Leaderboards. OpenAI‑GPT‑5‑Modelle erreichen ebenfalls hohe Scores, insbesondere in Text‑ und Vision‑Bereichen. Anthropic‑Claude‑Modelle liegen meist im mittleren Bereich über den Top‑Positionen.

Quelle: https://lmarena.ai/de/leaderboard