OpenAI fälscht Leistungsdaten: Benchmark-Manipulation und Token-Anpassungen
Key Takeaway
OpenAI fälscht die Leistungsdaten seiner Modelle, indem Benchmarks mit stark erhöhten Token-Anzahlen ausgeführt werden, wodurch die Ergebnisse gegen Konkurrenzmodelle wie Gemini 3 Pro manipuliert werden.
Summary
- Original Post: Autor: Hello_moneyyy postet in r/singularity am 12. Dez. 2025. Thema: „Deceptive marketing from OAI. Benchmarks were run with extra tokens…“
- Token‑Verwendung und Kosten: GPT‑5.2 X‑High = 1.9 USD pro Aufgabe, 52.9 % Score bei ARC‑AGI‑2. Output‑Preis: 14 USD pro 1 Mio. Token → 135 714 Tokens für X‑High. Weitere Token‑Anzahlen: GPT‑5.2 High = 99 286 Tokens, Gemini 3 Pro = 67 583 Tokens, GPT‑5.2 Medium = 54 214 Tokens, GPT‑5.2 Low = 18 857 Tokens.
- Leistungsvergleiche: Nach Token‑Anpassung liegen GPT‑5.2 und Gemini 3 Pro nahezu auf dem gleichen Niveau bei ARC‑AGI‑2. GPT‑5.2 X‑High übertrifft Gemini 3 Pro lediglich bei Frontier Math Tier 3 um 2.7 % Punkte. In anderen Benchmarks (HLE, MMMU‑Pro, Video‑MMMU, Frontier Math Tier 4) unterläuft GPT‑5.2 trotz höherer Token‑Nutzung. Gemeinsam mit Gemini 3 Pro stehen sie bei GPQA gleichwertig. GDPVal (von OpenAI geschaffen) wird als starkes Beispiel angeführt, obwohl OpenAI selbst nicht an Fakten‑Benchmarks arbeitet.
- Kommentare & Diskussion: 68 Kommentare, die größtenteils die Praxis von OpenAI kritisieren. Erörterung, ob Google (Gemini 3 1 Pro) Tokens erhöhen könnte, um besser abzuschneiden. Bemerkung zur Legalität von Token‑Reduktion ohne Nutzerinformation (Google). Diskussion über mögliche Vorteile von geringerer Rechenleistung bei Google.
- Kontext: Thread liegt in Community r/singularity, die sich mit technischer Singularität und KI diskutiert. Das Thema ist relevant für die Bewertung von KI‑Modellen und deren Transparenz.
Source
Quelle: Reddit Thread
