Die Grenzen des METR‑Plots: Kritik an der Horizon‑Length‑Messung
Der METR‑Plot liefert aufgrund seiner geringen und einseitigen Stichprobe (nur 14 Aufgaben, überwiegend aus Cyber‑Security‑CTFs) keine verlässlichen Aussagen über AGI‑Zeitpläne oder allgemeine KI‑Fähigkeiten.
Entstehung des METR‑Plots
Im März 2025 veröffentlichte die METR‑Research‑Community einen Plot, der die „Horizon‑Length“ (geschätzte menschliche Stunden, die ein Modell benötigt, um Aufgaben zu lösen) statt der traditionellen Genauigkeit misst.
Begründung
Der Autor hebt hervor, dass der Plot die Diskussion in die Richtung längerer, komplexerer Aufgabenketten verlagert hat – ein sinnvoller Schritt, um die praktischen Auswirkungen und wirtschaftlichen Konsequenzen von AI‑Entwicklungen zu messen.
Kritik an der Stichprobe
- Der Plot beruht auf nur 14 Aufgaben im 1‑4 Stunden‑Bereich.
- Alle Aufgaben sind öffentlich zugänglich, was die Möglichkeit eröffnet, gezielt die Messwerte zu „spielen“.
- Viele dieser Aufgaben stammen aus Cyber‑Security Capture‑the‑Flag (CTF)-Wettbewerben, einem Bereich, den Labore aufgrund von Dual‑Use‑Risiken (WMD‑P) vorsichtig behandeln.
Fehler in der Modellierung
Der Horizon‑Length‑Wert wird durch Anpassung einer logistischen Kurve an einzelne Erfolgsraten bestimmt. Kleine Stichproben und fehlende Daten in höheren Zeitbereichen (2–4 h) führen zu schlechten Fits, die zu niedrig geschätzten Horizon‑Values führen (z. B. Claude 3.7 Sonnet mit 59 Minuten). Die 0 % Erfolgsraten im 2–4 h‑Bereich der meisten Modelle lassen die Kurve weit darunter laufen.
Auswirkungen auf die AI‑Sicherheit
- Viele Sicherheitsspezialisten nutzen den Plot, um Zeitpläne für AGI‑Entwicklungen zu aktualisieren und Forschungsschwerpunkte neu zu setzen.
- Investitionsentscheidungen und öffentliches Vertrauen könnten dadurch ungerechtfertigt beeinflusst werden.
Möglichkeit, die Messwerte zu manipulieren (gamen)
Da die Themen der Aufgaben bekannt sind, könnten Labs gezielt synthetische Daten erzeugen oder Vendoren wie Scale, Mercor, Surge beauftragen, um Aufgaben in der 1‑min. – 16‑h‑Range zu überschreiben. Fokus auf Cyber‑Security‑ und MLE‑Aufgaben würde die Horizon‑Length der eigenen Modelle künstlich erhöhen.
Hoffnung auf Verbesserungen
Der Autor schlägt vor, mit einer breiteren und weniger einseitigen Aufgabenliste zu arbeiten. Er betont, dass die ursprüngliche Idee (Fortschritt anhand von langen, realen Aufgaben zu messen) weiterhin valide ist, aber die Methode zu „one‑size‑fits‑all“ reduziert hat.
Ausblick
METR‑Studien müssten weitere Aufgaben aus unterschiedlichen Domänen hinzufügen und den Anstieg des Erfolgsraten‑Spektrums (und nicht nur die logistische Kurve) berücksichtigen. Eine kritische Neubewertung der Logistik‑Fit‑Annahmen und der Verwendung von Confidence‑Intervals kann die Aussagekraft des Horizon‑Plots verbessern.
Quelle: https://shash42.substack.com/p/how-to-game-the-metr-plot
