home

Agenten und ihre Grenzen: Warum LLM‑Agents noch nicht die ideale Lösung sind

Agenten arbeiten bisher eher nach einem Top‑Down‑Waterfall-Modell, wodurch sie schwer zu iterieren sind, ihre Fähigkeiten nicht ausbauen können und auf sorgfältige Code‑Reviews angewiesen bleiben.

Key Takeaway

Agents arbeiten bisher eher nach einem Top‑Down‑Waterfall-Modell, wodurch sie schwer zu iterieren sind, ihre Fähigkeiten nicht ausbauen können und auf sorgfältige Code‑Reviews angewiesen bleiben.

Summary

  • 2025 wird als „Jahr der Agenten“ bezeichnet; der Autor nutzt LLM‑Agents für persönliche Projekte (Ratesmovies.net) und im Unternehmen (Cursor).
  • Beobachtung 1 – Agents sind waterfall‑orientiert:
    • Agenten planen zuerst ein gesamtes Feature („Plan“ und „TODO“) und führen anschließend die Schritte sequentiell aus.
    • Der letzte Schritt ist üblicherweise das Testen bzw. Ausführen des Codes, sodass Fehler erst spät erkannt werden.
    • Der Versuch, Agenten zu bottom‑up‑Plänen zu zwingen, schlägt fehl; sie bleiben beständig waterfall‑orientiert.
    • Beispiel: Bash‑Deploy‑Script – Agent fehlte bei der Umsetzung; bei gezielter, schrittweiser Anleitung kam die Lösung zustande.
  • Beobachtung 2 – Schnelle Code‑Generierung:
    • Agenten liefern zwar fehlerhafte, aber sehr zügige Code‑Snippets (Sekunden bis Minuten).
    • Der Autor nutzt sie für kleine Features/Commits, begleitet von schnellen Reviews im selben Chat.
    • Durch das „Spionieren“ in die Denk‑Schritte des Agents kann der Mensch frühzeitig Feedback geben.
  • Beobachtung 3 – Keine Karriereentwicklung der Agenten:
    • Bei jedem neuen Chat beginnt die Agentenleistung von Null.
    • Das AGENTS.md‑Prompt ausweiten reicht nicht, weil essentielle Regeln, Nuancen und Kontext nicht ins Modell passen.
    • Agenten sollten Zugriff auf frühere Entwicklungs‑Sessions haben, ähnlich wie Menschen Wissen aus vergangenen Projekten abrufen.
    • Cursor nutzt Summarisation, wodurch Agenten anfällig für „Amnesien“ werden; die Agenten können nicht im gesamten Kontext suchen.
  • Beobachtung 4 – Code‑Reviews sind unverzichtbar:
    • Mittelmäßige Programmierfähigkeiten und fehlende Fortschrittsfähigkeit erfordern robuste Code‑Reviews.
    • Der Autor betont, dass nur derjenige, der den Agenten steuert, für die Qualität verantwortlich sein sollte, um Qualitätsverlust zu vermeiden.
    • Code‑Reviews verhindern, dass LLM‑generierter, schlechter Code übernommen wird.
  • Beobachtung 5 – Übermäßige Abhängigkeit von Code‑Analyse:
    • Agenten neigen zu iterativem Durchsuchen und Debug‑Logik ohne echte Feedback‑Schleifen.
    • Fehlerdiagnose auf Basis von Code‑Lesen kann falsch liegen, was zu unproduktiven Refactorings führt.
    • Beispiel: CSS‑Opacity‑Bug bei Ratesmovies.net, bei dem Agenten immer wieder nach falschen Ursachen suchten.
    • Der Autor setzt eine „1‑Versuch‑Regel“, um die Produktivität zu schützen.
  • Beobachtung 6 – Menschliche Frustration über Hype‑Erwartungen:
    • LLM‑Agents überschreiten Erwartungen, was zu Überforderung und Frustration führt.
    • Der Autor kritisiert unnötiges Rauschen von LLM‑Texterzeugung, dehumanisierte Kommunikation und die Notwendigkeit authentischer, fehlerhafter Botschaften.
  • Gesamtblick: Agenten bieten schnelle, aber fehleranfällige Code‑Generierung und benötigen kontinuierliche menschliche Kontrolle, um brauchbar zu bleiben.

Related queries:

  • Wie lässt sich das „bottom‑up“ Vorgehen bei LLM‑Agents automatisieren?
  • Welche Techniken können die Fähigkeit von Agenten verbessern, sich aus früheren Sessions zu lernen?
  • Wie verhindert man, dass Code‑Reviews bei LLM‑basierten Projekten vernachlässigt werden?

Quelle: https://blog.valentin.sh/llm-coding/