home

OpenAI manipuliert Benchmark‑Ergebnisse mit überhöhten Token – eine kritische Analyse

Key Takeaway
OpenAI fälscht die Leistungsdaten seiner Modelle, indem sie Benchmarks mit stark erhöhten Token‑Anzahlen ausführen, wodurch die Ergebnisse gegen das Konkurrenzmodell Gemini 3 Pro manipuliert werden.

Zusammenfassung
Der Originalbeitrag von Hello_moneyyy im Subreddit r/singularity vom 12. Dez. 2025 beschäftigt sich mit der kritischen Analyse, wie OpenAI Benchmark‑Ergebnisse verzerrt. Dabei werden die Token‑Nutzung und die Kosten für verschiedene Modellkonfigurationen erläutert:

  • GPT‑5.2 X‑High (maximale Reasoning‑Effort) = 1.9 USD pro Aufgabe, 52.9 % Score bei ARC‑AGI‑2.
  • Output‑Preis: 14 USD pro 1 Mio. Token → 135 714 Tokens für X‑High.
  • Weitere Token‑Anzahlen:
    • GPT‑5.2 High = 99 286 Tokens
    • Gemini 3 Pro = 67 583 Tokens
    • GPT‑5.2 Medium = 54 214 Tokens
    • GPT‑5.2 Low = 18 857 Tokens

Nach einer Token‑Anpassung liegen GPT‑5.2 und Gemini 3 Pro nahezu auf dem gleichen Niveau bei ARC‑AGI‑2. GPT‑5.2 X‑High übertrifft Gemini 3 Pro lediglich bei Frontier Math Tier 3 um 2.7 % Punkte. In anderen Benchmarks (HLE, MMMU‑Pro, Video‑MMMU, Frontier Math Tier 4) unterläuft GPT‑5.2 trotz höherer Token‑Nutzung. Gemeinsam mit Gemini 3 Pro stehen sie bei GPQA gleichwertig.

Das Beispiel „GDPVal“, das von OpenAI geschaffen wurde, wird als starkes Beispiel angeführt, obwohl OpenAI selbst nicht an Fakten‑Benchmarks arbeitet.

Kommentare & Diskussion
Der Thread umfasst 68 Kommentare, die größtenteils die Praxis von OpenAI kritisieren. Die Diskussion beinhaltet Fragen zur Legalität von Token‑Reduktion ohne Nutzerinformation und mögliche Vorteile einer geringeren Rechenleistung bei Google.

Kontext
Der Thread liegt in der Community r/singularity, die sich mit technischer Singularität und KI beschäftigt, und ist relevant für die Bewertung von KI‑Modellen und deren Transparenz.

Quellen
Originaler Reddit-Thread