home

OpenAI fälscht Benchmark-Ergebnisse: Token‑Manipulation im Fokus

Schlüsselpunkt: OpenAI führt Benchmarks mit stark erhöhten Token-Anzahlen durch, um die Leistung der Modelle zu manipulieren und sich gegenüber Gemini 3 Pro durchzusetzen.

Originalbeitrag

Autor: Hello_moneyyy postet in r/singularity am 12. Dez. 2025. Thema: „Deceptive marketing from OAI. Benchmarks were run with extra tokens…“

Token‑Verwendung und Kosten

  • GPT‑5.2 X‑High (maximale Reasoning‑Effort) = 1.9 USD pro Aufgabe, 52.9 % Score bei ARC‑AGI‑2.
  • Output‑Preis: 14 USD pro 1 Mio. Token → 135 714 Tokens für X‑High.
  • Weitere Token‑Anzahlen: GPT‑5.2 High = 99 286 Tokens; Gemini 3 Pro = 67 583 Tokens; GPT‑5.2 Medium = 54 214 Tokens; GPT‑5.2 Low = 18 857 Tokens.

Leistungsvergleiche

Nach Token‑Anpassung liegen GPT‑5.2 und Gemini 3 Pro nahezu auf dem gleichen Niveau bei ARC‑AGI‑2. GPT‑5.2 X‑High übertrifft Gemini 3 Pro lediglich bei Frontier Math Tier 3 um 2.7 % Punkte. In anderen Benchmarks (HLE, MMMU‑Pro, Video‑MMMU, Frontier Math Tier 4) unterläuft GPT‑5.2 trotz höherer Token‑Nutzung. Gemeinsam mit Gemini 3 Pro stehen sie bei GPQA gleichwertig. GDPVal (von OpenAI geschaffen) wird als starkes Beispiel angeführt, obwohl OpenAI selbst nicht an Fakten‑Benchmarks arbeitet.

Kommentare & Diskussion

68 Kommentare, die größtenteils die Praxis von OpenAI kritisieren. Erörterung, ob Google (Gemini 3 1 Pro) Tokens erhöhen könnte, um besser abzuschneiden. Bemerkung zur Legalität von Token‑Reduktion ohne Nutzerinformation (Google). Diskussion über mögliche Vorteile von geringerer Rechenleistung bei Google.

Kontext

Thread liegt in Community r/singularity, die sich mit technischer Singularität und KI diskutiert. Das Thema ist relevant für die Bewertung von KI‑Modellen und deren Transparenz.

Quelle

https://old.reddit.com/r/singularity/comments/1pkeb7v/deceptive_marketing_from_oai_benchmarks_were_run/