Die meisten getesteten Sprachmodelle produzieren qualitativ hochwertige, aber einander sehr ähnliche Texte, sodass die Bewertung nur minimale Unterschiede erkennen lässt.
Key Takeaway
Die meisten getesteten Sprachmodelle produzieren qualitativ hochwertige, aber einander sehr ähnliche Texte, sodass die Bewertung nur minimale Unterschiede erkennen lässt.
Summary
- Der Artikel vergleicht die Leistung von Sprachmodellen bei kreativen Texttransformationen, analog zu einem bestehenden Image‑Editing‑Showdown.
- Methodik
- Zehn Passagen aus Büchern wurden ausgewählt und für jede Passage ein Transformationsprompt erstellt.
- Zehn Modelle wurden über OpenRouter mit Standardparametern ausgelöst; nur die erste Antwort jeder Ausführung wurde bewertet.
- Bewertung erfolgte auf einer vierstufigen Skala (fail, ok, good, excellent) in blind (modellname verborgen), wobei 0–3 Punkte pro Antwort vergeben wurden.
- Bewertung
- Die subjektive Bewertung basiert ausschließlich auf dem Endtext, ohne erklärende Rückmeldungen des Modells zu berücksichtigen.
- Jede Antwort wurde nur einmalig eingesehen, auch bei mehreren Varianten wurde stets die erste gewählt.
- Ergebnisse
- Alle Modelle zeigen ein hohes Leistungsniveau; Unterschiede zwischen den Bewertungskategorien liegen meist innerhalb kleiner Schwellen.
- Die Resultate sind oft sehr ähnlich, sodass die Vielfalt der generierten Texte begrenzt wirkt.
- Kommentare
- Der Autor betont, dass die großen Unterschiede zwischen Experten und Laien im realen Schreibbereich kaum noch vorhanden sind.
- Eine tiefere Bewertung erfordert große manuelle Anstrengungen und eine unabhängige Verifizierung.
- Beispielabschnitt – „Drug of choice“
- Der Originaltext beschreibt einen Mann mit schwarzem Ring, in einer stillen Bar.
- Transformationsversuche verschiedener Modelle (Claude‑Sonnet‑4.5, GPT‑5.2, Gemini‑3‑Flash, Gemini‑3‑Pro, DeepSeek‑v3.2, Qwen3‑VL, Kimi‑K2) wurden gezeigt.
- Kommentare geben an, dass die Metaphern oft überstrapaziert wirken, Inkonsistenzen zwischen Oberflächenbeschreibungen und filmenden Effekten vorhanden sind und die generierten Texte manchmal zu wortreich oder phantastisch wirken.
- Generelle Beobachtungen
- Wegen hoher Qualität fehlt häufig die Originalität; die Transformationsantworten neigen dazu, den Ausgangstext zu erahnen und wenig Variation einzubringen.
- Der Prozess demonstriert, inwieweit KI‑Modelle für kreative Aufgaben geeignet sind und wo sie noch Grenzen haben.
Related queries:
Welche Modelle wurden in der Studie evaluiert?
Wie wurde die Bewertung der Texttransformationen durchgeführt?
Was waren die wichtigsten Erkenntnisse der Bewertung?
Quelle: https://writing-showdown.com/
