home

Selbstgehostete STT‑LLM‑TTS‑Pipeline: Kosten­ersparnis und GPU‑Erfordernis

Ein selbstgehostetes STT‑>LLM‑>TTS‑Setup erzeugt menschenähnliche Stimmen und ist etwa zehnmal günstiger als ElevenLabs. Dabei erfordert es jedoch erhebliche GPU-Ressourcen und Wartungsaufwand.

Key Takeaway

Ein selbstgehostetes STT‑>LLM‑>TTS‑Pipeline kann menschenähnliche, ausdrucksstarke Stimmen erzeugen und ist etwa 10‑mal günstiger als ElevenLabs, erfordert jedoch erhebliche GPU‑Ressourcen und Wartung.

Summary

Hintergrund: Der Autor baute eine Echtzeit‑AI‑Sprachchat‑App, konnte ElevenLabs wegen hoher Preise nicht wirtschaftlich nutzen.

Geforderte Eigenschaften: Ausdrucksstarke, menschlich klingende Stimmen, niedrige Latenz, geringe Kosten.

Lösung: Selbstgehostete Pipeline bestehend aus Spracherkennung (STT), Large Language Model (LLM) und Text‑zu‑Speech (TTS). Erzeugt Klang ähnlich wie ElevenLabs, aber ~10 % der Kosten pro Minute bei Skalierung. Erfordert jedoch große GPU‑Kapazität und ist schwer zu warten.

Absicht: Möglicherweise als Turn‑Key‑Conversational‑Voice‑API oder eingebettetes Widget anbieten.

Angebot: Demonstration des Setups im Echo‑Tavern‑App:

Feedback‑Erfrage: „Sollen andere diese Lösung nutzen?“

Aktivität: 1 Kommentar des Autors mit Demo‑Links, keine weiteren Beteiligten im Gespräch.

Related Queries

  • Wie hoch sind die GPU‑Anforderungen für diese Pipeline?
  • Wie vergleichen sich Latenz & Stimmlage zu ElevenLabs?
  • Kann die API als Widget in bestehende Apps integriert werden?

Quelle: https://news.ycombinator.com/item?id=46424335