home

OpenAI fälscht Benchmarks – Manipulation durch Token‑Erhöhung

Key Takeaway

OpenAI fälscht die Leistungsdaten seiner Modelle, indem sie Benchmarks mit stark erhöhten Token‑Anzahlen ausführen, wodurch die Ergebnisse gegen den Konkurrenzmodell Gemini 3 Pro manipuliert werden.

Summary

  • Original Post – Autor: Hello_moneyyy postet in r/singularity am 12. Dez. 2025. Thema: „Deceptive marketing from OAI. Benchmarks were run with extra tokens…“
  • Token‑Verwendung und Kosten – GPT‑5.2 X‑High (maximale Reasoning‑Effort) = 1.9 USD pro Aufgabe, 52.9 % Score bei ARC‑AGI‑2; Output‑Preis: 14 USD pro 1 Mio. Token → 135 714 Tokens für X‑High. Weitere Token‑Anzahlen: GPT‑5.2 High = 99 286 Tokens, Gemini 3 Pro = 67 583 Tokens, GPT‑5.2 Medium = 54 214 Tokens, GPT‑5.2 Low = 18 857 Tokens.
  • Leistungsvergleiche – Nach Token‑Anpassung liegen GPT‑5.2 und Gemini 3 Pro nahezu auf dem gleichen Niveau bei ARC‑AGI‑2. GPT‑5.2 X‑High übertrifft Gemini 3 Pro lediglich bei Frontier Math Tier 3 um 2.7 % Punkte. In anderen Benchmarks (HLE, MMMU‑Pro, Video‑MMMU, Frontier Math Tier 4) unterläuft GPT‑5.2 trotz höherer Token‑Nutzung. Gemeinsam mit Gemini 3 Pro stehen sie bei GPQA gleichwertig. GDPVal (von OpenAI geschaffen) wird als starkes Beispiel angeführt, obwohl OpenAI selbst nicht an Fakten‑Benchmarks arbeitet.
  • Kommentare & Diskussion – 68 Kommentare, die größtenteils die Praxis von OpenAI kritisieren. Erörterung, ob Google (Gemini 3 1 Pro) Tokens erhöhen könnte, um besser abzuschneiden. Bemerkung zur Legalität von Token‑Reduktion ohne Nutzerinformation (Google). Diskussion über mögliche Vorteile von geringerer Rechenleistung bei Google.
  • Kontext – Thread liegt in Community r/singularity, die sich mit technischer Singularität und KI diskutiert. Das Thema ist relevant für die Bewertung von KI‑Modellen und deren Transparenz.

Related queries:

Wie viel Kosten entstehen bei einer Benchmark-Aufgabe mit 135 714 Tokens bei GPT‑5.2 X‑High?
Welche Benchmarks zeigen, dass GPT‑5.2 trotz höherer Token‑Nutzung hinter Gemini 3 Pro zurückbleibt?
Kann Google durch Erhöhung seiner Token‑Verwendung den Benchmark-Score von Gemini 3 Pro verbessern?

Quelle: https://old.reddit.com/r/singularity/comments/1pkeb7v/deceptive_marketing_from_oai_benchmarks_were_run/