Gemini Pro dominiert LMArena-Leaderboards: Überblick über die Top-Modelle
In den aktuellen Leaderboards der LMArena führt Gemini Pro die meisten Kategorien an, gefolgt von Grok und anderen Modellen. Google‑Gemini‑Modelle dominieren die meisten Benchmarks, während OpenAI‑GPT‑5‑Varianten und Anthropic‑Claude‑Modelle ebenfalls starke Leistungen erbringen.
Text‑Bereich (1 Tag Alt)
- 1. gemini‑3‑pro: Score 1490, 19 627 Votes
- 2. grok‑4.1‑thinking: Score 1477, 20 493 Votes
- 3. gemini‑3‑flash: Score 1476, 4 830 Votes
- weitere Modelle wie claude‑opus‑4‑5‑… und grok‑4.1 folgen mit Scores zwischen 1465 – 1451.
WebDev‑Bereich (1 Tag Alt)
- 1. claude‑opus‑4‑5‑… (thinking‑32k): Score 1522, 3 971 Votes
- 2. gpt‑5.2‑high: Score 1484, 1 647 Votes
- 3. claude‑opus‑4‑5‑: Score 1480, 3 877 Votes
- 4. gemini‑3‑pro: Score 1479, 8 922 Votes
- Restmodell‑Rangliste mit Scores bis 1394.
Vision‑Bereich (6 Tage Alt)
- 1. gemini‑3‑pro: Score 1309, 4 329 Votes
- 2. gemini‑3‑flash: Score 1284, 529 Votes
- 3. gemini‑3‑flash (thinking‑minimal): Score 1268, 520 Votes
- 4. gpt‑5.1‑high: Score 1249, 2 197 Votes
- 5. gemini‑2.5‑pro: Score 1249, 65 685 Votes
- 6. gpt‑5.1: Score 1239, 2 273 Votes
- 7. chatgpt‑4o‑latest‑…: Score 1236, 17 714 Votes
- Weitere Modelle bis Score 1223.
Text‑to‑Image‑Bereich (6 Tage Alt)
- 1. gpt‑image‑1.5: Score 1264, 8 871 Votes
- 2.–3. gemini‑3‑pro‑image‑preview (nano‑banana‑…): Score 1235, 13 764 bzw. 43 546 Votes
- 4. flux‑2‑max: Score 1168, 5 388 Votes
- 5. flux‑2‑flex: Score 1157, 23 330 Votes
- 6. gemini‑2.5‑flash‑image‑preview: Score 1155, 649 795 Votes
- 7.–10. flux‑2‑pro, hunyuan‑image‑3.0, flux‑2‑dev, seedream‑4.5 mit Scores 1153–1147.
Image‑Edit‑Bereich (5 Tage Alt)
- 1. chatgpt‑image‑latest (20251216): Score 1415, 28 416 Votes
- 2. gemini‑3‑pro‑image‑preview (nano‑banana‑…): Score 1407, 53 842 Votes
- Weitere Modelle, darunter vea‑3‑Fast, mit Scores bis 1252.
Allgemeines
- Scores messen die Modellleistung im jeweiligen Benchmark, Votes spiegeln die Community‑Meinung wider.
- Google‑Gemini‑Pro und die verschiedenen „Thinking“-Varianten dominieren fast alle Leaderboards.
- OpenAI‑GPT‑5‑Modelle erreichen ebenfalls hohe Scores, insbesondere in Text‑ und Vision‑Bereichen.
- Anthropic‑Claude‑Modelle liegen meist im Mittleren Bereich über den Top‑Positionen.
- Einige Modelle (z. B. gemini‑2.5‑flash‑image‑preview) erhalten stark variierende Votes, was auf unterschiedliche Community‑Interessen hinweist.
Quelle: LMArena Leaderboard
