OpenAI fälscht Benchmark-Ergebnisse: Token‑Manipulation im Fokus
Schlüsselpunkt: OpenAI führt Benchmarks mit stark erhöhten Token-Anzahlen durch, um die Leistung der Modelle zu manipulieren und sich gegenüber Gemini 3 Pro durchzusetzen.
Originalbeitrag
Autor: Hello_moneyyy postet in r/singularity am 12. Dez. 2025. Thema: „Deceptive marketing from OAI. Benchmarks were run with extra tokens…“
Token‑Verwendung und Kosten
- GPT‑5.2 X‑High (maximale Reasoning‑Effort) = 1.9 USD pro Aufgabe, 52.9 % Score bei ARC‑AGI‑2.
- Output‑Preis: 14 USD pro 1 Mio. Token → 135 714 Tokens für X‑High.
- Weitere Token‑Anzahlen: GPT‑5.2 High = 99 286 Tokens; Gemini 3 Pro = 67 583 Tokens; GPT‑5.2 Medium = 54 214 Tokens; GPT‑5.2 Low = 18 857 Tokens.
Leistungsvergleiche
Nach Token‑Anpassung liegen GPT‑5.2 und Gemini 3 Pro nahezu auf dem gleichen Niveau bei ARC‑AGI‑2. GPT‑5.2 X‑High übertrifft Gemini 3 Pro lediglich bei Frontier Math Tier 3 um 2.7 % Punkte. In anderen Benchmarks (HLE, MMMU‑Pro, Video‑MMMU, Frontier Math Tier 4) unterläuft GPT‑5.2 trotz höherer Token‑Nutzung. Gemeinsam mit Gemini 3 Pro stehen sie bei GPQA gleichwertig. GDPVal (von OpenAI geschaffen) wird als starkes Beispiel angeführt, obwohl OpenAI selbst nicht an Fakten‑Benchmarks arbeitet.
Kommentare & Diskussion
68 Kommentare, die größtenteils die Praxis von OpenAI kritisieren. Erörterung, ob Google (Gemini 3 1 Pro) Tokens erhöhen könnte, um besser abzuschneiden. Bemerkung zur Legalität von Token‑Reduktion ohne Nutzerinformation (Google). Diskussion über mögliche Vorteile von geringerer Rechenleistung bei Google.
Kontext
Thread liegt in Community r/singularity, die sich mit technischer Singularität und KI diskutiert. Das Thema ist relevant für die Bewertung von KI‑Modellen und deren Transparenz.
