Selbstgehostete STT–LLM–TTS‑Pipeline: 10‑mal günstiger als ElevenLabs
Ein selbstgehostetes STT‑>LLM‑>TTS‑Pipeline kann menschenähnliche, ausdrucksstarke Stimmen erzeugen und ist etwa 10‑mal günstiger als ElevenLabs, erfordert jedoch erhebliche GPU‑Ressourcen und Wartung.
Hintergrund: Der Autor baute eine Echtzeit‑AI‑Sprachchat‑App, konnte ElevenLabs wegen hoher Preise nicht wirtschaftlich nutzen.
Geforderte Eigenschaften: Ausdrucksstarke, menschlich klingende Stimmen, niedrige Latenz, geringe Kosten.
Lösung: Selbstgehostete Pipeline bestehend aus Spracherkennung (STT), Large Language Model (LLM) und Text‑zu‑Speech (TTS). Erzeugt Klang ähnlich wie ElevenLabs, aber ~10 % der Kosten pro Minute bei Skalierung. Erfordert jedoch große GPU‑Kapazität und ist schwer zu warten.
Absicht: Möglicherweise als Turn‑Key‑Conversational‑Voice‑API oder eingebettetes Widget anbieten.
Angebot: Demonstration des Setups im Echo‑Tavern‑App: iOS‑App: https://apps.apple.com/us/app/echo-tavern/id6754861981, Web‑Version: https://echotavern.ai
Feedback‑Erfrage: „Sollen andere diese Lösung nutzen?“
Aktivität: 1 Kommentar des Autors mit Demo‑Links, keine weiteren Beteiligten im Gespräch.
