home

LLMs haben zwar große Fortschritte bei Swift-Programmierung gemacht, liefern aber bislang keine zuverlässig kompilierbaren „Vibe‑Coding“-Apps; die meisten Modelle benötigen nachträgliches Debugging und fehlen bei aktuellen Swift‑Features.

Key Takeaway

LLMs haben zwar große Fortschritte bei Swift-Programmierung gemacht, liefern aber bislang keine zuverlässig kompilierbaren „Vibe‑Coding“-Apps; die meisten Modelle benötigen nachträgliches Debugging und fehlen bei aktuellen Swift‑Features.

Summary

  • Der Artikel ist ein Follow‑up zu einem früheren Beitrag über Copilot (GPT 4o) und untersucht die Fortschritte der letzten 12 Monate.
  • Frühere Erfahrungen: Im vorigen Jahr lief Copilot schlecht – ~400 Zeilen App mussten manuell überarbeitet werden. Danach wurden nur noch kleine API‑Beispiele generiert, nicht komplette Apps.
  • Motivation: Der Autor will in 12 Monaten prüfen, ob LLMs jetzt spielerisch (vibe coding) Swift‑Apps mit < 500 Zeilen komplett selbst generieren können.
  • Frage “Vibe‑Coding”: bezieht sich auf das Konzept, das laut Karpathy “coding as music” bedeutet.
  • Modelle getestet: GPT 4o (Copilot) – schlechter Stand – 383 Zeilen, 21 Fehler, kaum funktionierender Code; GPT 5.2 – bessere Architektur, 295 Zeilen, ein Kompilierproblem mit AVAudioPCMBuffer; Gemini 3 – 227 Zeilen, 3 Dateien, kleine Fehler, größtenteils funktional; Claude Sonnet 4.5 – nicht im Text vollständig beschrieben, aber laut Preview gut strukturiert; Lokale LLMs (Qwen3‑Coder‑30B, GPT‑OSS‑20B, DeepSeek‑R2‑Lite, Devstral Small 2, Nemotron 3 Nano) – nur kurz erwähnt, keine Tie‑Deep‑Präsentation.
  • Neue Anforderungen: Swift 6, async/await und aktuelle iOS/macOS Features werden kaum berücksichtigt. Modelle fügen veraltete #availability‑Checks ein, verstehen keine modernen Audio‑Synthese‑Patterns.
  • Test‑Setup: Vollständiger Prompt: “Create a macOS app written in Swift, using SwiftUI and AVFoundation, that synthesizes rain sounds …” Erwartete Features: Raindrop‑Scheduler, variieren von 20–4000 Drops/min, sliders für Alle Parameter, Live‑Chart via Swift Charts, noise‑generatoren für Pink, Brown, White.
  • Ergebnisse: GPT 4o 2/10 – viele Fehler, keine Funktionsimplementierung, stark überladen. GPT 5.2 7/10 – kompiliert nach kleiner Anpassung, UI unvollständig, Chart‑Lag. Gemini 3 8/10 – gut strukturiert, nur ein trivialer Fehler, funktioniert größtenteils. Claude Sonnet 4.5 noch nicht abschließend bewertet, aber promettant.
  • Diskussion: Fortschritt bei Modellgröße (GPT 5.2, Gemini 3, Claude 4.5) hat die Komplexität der generierten Codebasis erhöht, jedoch nicht die Zuverlässigkeit. Lokale LLMs mit ≤ 16 GB RAM scheinen noch nicht genügend trainiert, die meisten Features bleiben unverändert 2‑+ Jahre alt. Apple’s Swift Assist bleibt außen vor, obwohl ein eigener Swift‑Trained‑Model sinnvoll wäre.
  • Fazit: LLMs haben die Fähigkeit, größere Programmstrukturen zu skizzieren, aber die Übergabe an einen echten, kompilierbaren Swift‑Code erfordert noch erhebliche menschliche Nachbearbeitung. Für eine echte „vibe coding“ Erfahrung bleibt die Nutzung von LLMs als Unterstützung (z. B. Hilf bei API‑Aufrufen, Code‑Snippets) sinnvoll, jedoch nicht als alleinige Code���Generatoren.

Related queries

Wie kann die Kompilierbarkeit von LLM‑generiertem Swift Code verbessert werden?
Welche aktuellen LLMs unterstützen Swift 6 oder Async/Await?
Wie lassen sich lokale LLMs mit 16 GB RAM auf Swift‑Code anwenden?

Quelle: https://www.cocoawithlove.com/blog/llms-twelve-months-later.html