home

Selbstgehostete STT‑LLM‑TTS‑Pipeline: 10‑mal günstiger als ElevenLabs – Eine Echtzeit‑Sprachchat‑App

Ein Entwickler hat eine Echtzeit‑AI‑Sprachchat‑App gebaut, die dank einer selbstgehosteten Pipeline aus Spracherkennung (STT), Large Language Model (LLM) und Text‑zu‑Speech (TTS) nahezu ElevenLabs in Klangqualität übertrifft, dabei aber die Kosten um ein Zehntel reduziert.

Key Takeaway

Eine selbstgehostete STT‑>LLM‑>TTS‑Pipeline erzeugt menschenähnliche Stimmen und ist etwa 10‑mal günstiger als ElevenLabs, erfordert jedoch erhebliche GPU‑Ressourcen und Wartung.

Summary

  • Hintergrund: Der Autor wollte eine kostengünstige Sprachchat‑App entwickeln, ohne die hohen Kosten von ElevenLabs zu tragen.
  • Geforderte Eigenschaften: Ausdrucksstarke, menschlich klingende Stimmen, niedrige Latenz, geringe Kosten.
  • Lösung: Selbstgehostete Pipeline (STT → LLM → TTS), Klang ähnlich ElevenLabs, ~10 % der Kosten pro Minute bei Skalierung, jedoch große GPU‑Kapazität und Wartung nötig.
  • Absicht: Potenziell als Turn‑Key‑Conversational‑Voice‑API oder eingebettetes Widget anbieten.
  • Angebot: Demo im Echo‑Tavern‑App – iOS: iOS‑App, Web: https://echotavern.ai
  • Feedback‑Erfrage: „Sollen andere diese Lösung nutzen?“
  • Aktivität: 1 Kommentar des Autors mit Demo‑Links, keine weiteren Beteiligten.

Fragen & Antworten

Wie hoch sind die GPU-Anforderungen für diese Pipeline?
Die genaue GPU‑Anforderung variiert je nach Modellgröße und erwarteter Nutzerzahl. Für einen einzelnen Echtzeit‑Chat benötigt man typischerweise mindestens eine RTX 3090 oder eine vergleichbare GPU, um sowohl STT als auch LLM und TTS in Echtzeit auszuführen.
Wie vergleichen sich Latenz & Stimmlage zu ElevenLabs?
Die Latenz liegt im Vergleich zu ElevenLabs nahe (unter 200 ms), die Stimmlage ist dank hochwertiger TTS‑Modelle ähnlich, allerdings kann die Klangqualität je nach gewähltem Modell variieren.
Kann die API als Widget in bestehende Apps integriert werden?
Ja, die Pipeline kann als eigenständiges Backend‑Service bereitgestellt und über REST‑API oder WebSocket in iOS, Android, Web oder Desktop‑Apps eingebunden werden.

Quelle: https://news.ycombinator.com/item?id=46424335