VibeVoice-Podcast: Open‑Source AI‑getriebener Podcast‑Editor
VibeVoice-Podcast ermöglicht das schnelle Erstellen und Exportieren von AI‑getriebenen, mehrstimmigen Podcasts über ein einfaches Web‑Interface mit sofortigem Pre‑Generation‑Caching und JSON‑basiertem Projektmanagement.
Projektidee
- Ein Open‑Source‑Frontend zum Erstellen von Podcasts mit KI‑Text‑zu‑Speech (TTS).
- Unterstützt mehrere Sprecher (Voice‑Assignments) und unbegrenzte Textsegmente.
- Audio wird auf dem Client vorab generiert, gespeichert und sofort wiedergegeben – garantiert konsistente Wiedergabe.
Wichtige Features
- Multi‑Segment Editing: Unbegrenzte Textsegmente einfügen, bearbeiten und mit jeweiligen Stimmen verknüpfen.
- Per‑Segment Voices: Jede Sektion kann eine andere Stimme aus einer Dropdown‑Liste beziehen.
- Audio Pre‑Generation & Caching: Beim Klicken auf „Generate“ wird der Audioclip erzeugt und im Cache gespeichert.
- Real‑Time Preview: Einzelne Segmente oder die gesamte Podcast‑Liste können sofort abgespielt werden.
- Export:
- WAV: Komplettes Podcast‑Audio als einzelne .wav‑Datei downloaden.
- JSON: Projektdatei exportieren, um später fortzufahren.
- Import: Bereits erstellte JSON‑Projekte wieder einlesen.
- Batch‑Generation: „Generate All“ erzeugt alle fehlenden Segmente gleichzeitig.
- Cache‑Invalidierung: Änderungen an Text oder Stimme führen zur Cache‑Löschung des jeweiligen Segments.
Setup & Installation
- VibeVoice‑Repo klonen:
git clone https://github.com/microsoft/VibeVoice && cd VibeVoice - Backend‑Server starten
- Server‑Script:
cp example/server.py /path/to/VibeVoice/demo/server.py - Server ausführen:
cd /path/to/VibeVoice python demo/server.py --model microsoft/VibeVoice-Realtime-0.5B --device cuda --port 8880
- Verfügbar unter
http://localhost:8880
- Server‑Script:
- Frontend starten
- Abhängigkeiten installieren:
bun installodernpm install - Dev‑Server starten:
bun devodernpm run dev - Interface unter
http://localhost:5173
- Abhängigkeiten installieren:
API‑Konfiguration
- Frontend verbindet sich per
API_BASE = "http://localhost:8880/api". - Änderungen erfolgen in
src/App.tsx.
Technische Komponenten
- Frontend: React + TypeScript + Vite + Tailwind CSS.
- Backend: FastAPI + VibeVoice TTS‑Engine (microsoft/VibeVoice-Realtime-0.5B).
- Caching: Client‑seitiges Caching über lokale Speicher.
Beispiel‑Podcasts
Im Verzeichnis example/ liegen JSON‑ und WAV‑Beispiele zum Importieren.
Lizenz
MIT‑Lizenz, frei nutzbar und modifizierbar.
Repository‑Status
2 Sterne, 1 Fork, keine aktuellen Issues oder PRs.
Sprachen
Primär TypeScript (72 %), Python (23 %), CSS (4 %) & HTML (0,4 %).
Fragen & Antworten
- Wie installiere ich VibeVoice und starte das Backend? – Schritt‑für‑Schritt-Anleitung oben.
- Welche Stimmen stehen als Optionen im Dropdown zur Verfügung? – Entspricht den Voice‑Assignments des Projekts.
- Wie kann ich ein vorhandenes JSON‑Projekt in VibeVoice importieren? – Wählen Sie die Import‑Option im Frontend.
