Selbstgehostete STT–LLM–TTS‑Pipeline: 10‑mal günstiger als ElevenLabs

Ein selbstgehostetes STT‑>LLM‑>TTS‑Pipeline kann menschenähnliche, ausdrucksstarke Stimmen erzeugen und ist etwa 10‑mal günstiger als ElevenLabs, erfordert jedoch erhebliche GPU‑Ressourcen und Wartung.

Hintergrund: Der Autor baute eine Echtzeit‑AI‑Sprachchat‑App, konnte ElevenLabs wegen hoher Preise nicht wirtschaftlich nutzen.

Geforderte Eigenschaften: Ausdrucksstarke, menschlich klingende Stimmen, niedrige Latenz, geringe Kosten.

Lösung: Selbstgehostete Pipeline bestehend aus Spracherkennung (STT), Large Language Model (LLM) und Text‑zu‑Speech (TTS). Erzeugt Klang ähnlich wie ElevenLabs, aber ~10 % der Kosten pro Minute bei Skalierung. Erfordert jedoch große GPU‑Kapazität und ist schwer zu warten.

Absicht: Möglicherweise als Turn‑Key‑Conversational‑Voice‑API oder eingebettetes Widget anbieten.

Angebot: Demonstration des Setups im Echo‑Tavern‑App: iOS‑App: https://apps.apple.com/us/app/echo-tavern/id6754861981, Web‑Version: https://echotavern.ai

Feedback‑Erfrage: „Sollen andere diese Lösung nutzen?“

Aktivität: 1 Kommentar des Autors mit Demo‑Links, keine weiteren Beteiligten im Gespräch.

Quelle: https://news.ycombinator.com/item?id=46424335

Selbstgehostete STT–LLM–TTS‑Pipeline: 10‑mal günstiger als ElevenLabs

Selbstgehostete STT–LLM–TTS‑Pipeline: 10‑mal günstiger als ElevenLabs

Submit a Comment Cancel reply

Recent Posts

Recent Comments