VibeVoice-Podcast: Open‑Source AI‑getriebener Podcast‑Editor

VibeVoice-Podcast ermöglicht das schnelle Erstellen und Exportieren von AI‑getriebenen, mehrstimmigen Podcasts über ein einfaches Web‑Interface mit sofortigem Pre‑Generation‑Caching und JSON‑basiertem Projektmanagement.

Projektidee

Ein Open‑Source‑Frontend zum Erstellen von Podcasts mit KI‑Text‑zu‑Speech (TTS).
Unterstützt mehrere Sprecher (Voice‑Assignments) und unbegrenzte Textsegmente.
Audio wird auf dem Client vorab generiert, gespeichert und sofort wiedergegeben – garantiert konsistente Wiedergabe.

Wichtige Features

Multi‑Segment Editing: Unbegrenzte Textsegmente einfügen, bearbeiten und mit jeweiligen Stimmen verknüpfen.
Per‑Segment Voices: Jede Sektion kann eine andere Stimme aus einer Dropdown‑Liste beziehen.
Audio Pre‑Generation & Caching: Beim Klicken auf „Generate“ wird der Audioclip erzeugt und im Cache gespeichert.
Real‑Time Preview: Einzelne Segmente oder die gesamte Podcast‑Liste können sofort abgespielt werden.
Export:
- WAV: Komplettes Podcast‑Audio als einzelne .wav‑Datei downloaden.
- JSON: Projektdatei exportieren, um später fortzufahren.
Import: Bereits erstellte JSON‑Projekte wieder einlesen.
Batch‑Generation: „Generate All“ erzeugt alle fehlenden Segmente gleichzeitig.
Cache‑Invalidierung: Änderungen an Text oder Stimme führen zur Cache‑Löschung des jeweiligen Segments.

Setup & Installation

VibeVoice‑Repo klonen: git clone https://github.com/microsoft/VibeVoice && cd VibeVoice
Backend‑Server starten
- Server‑Script: cp example/server.py /path/to/VibeVoice/demo/server.py
- Server ausführen:
```
cd /path/to/VibeVoice
python demo/server.py --model microsoft/VibeVoice-Realtime-0.5B --device cuda --port 8880
```
- Verfügbar unter http://localhost:8880
Frontend starten
- Abhängigkeiten installieren: bun install oder npm install
- Dev‑Server starten: bun dev oder npm run dev
- Interface unter http://localhost:5173

API‑Konfiguration

Frontend verbindet sich per API_BASE = "http://localhost:8880/api".
Änderungen erfolgen in src/App.tsx.

Technische Komponenten

Frontend: React + TypeScript + Vite + Tailwind CSS.
Backend: FastAPI + VibeVoice TTS‑Engine (microsoft/VibeVoice-Realtime-0.5B).
Caching: Client‑seitiges Caching über lokale Speicher.

Beispiel‑Podcasts

Im Verzeichnis example/ liegen JSON‑ und WAV‑Beispiele zum Importieren.

Lizenz

MIT‑Lizenz, frei nutzbar und modifizierbar.

Repository‑Status

2 Sterne, 1 Fork, keine aktuellen Issues oder PRs.

Sprachen

Primär TypeScript (72 %), Python (23 %), CSS (4 %) & HTML (0,4 %).

Fragen & Antworten

Wie installiere ich VibeVoice und starte das Backend? – Schritt‑für‑Schritt-Anleitung oben.
Welche Stimmen stehen als Optionen im Dropdown zur Verfügung? – Entspricht den Voice‑Assignments des Projekts.
Wie kann ich ein vorhandenes JSON‑Projekt in VibeVoice importieren? – Wählen Sie die Import‑Option im Frontend.

Quelle: https://github.com/skorotkiewicz/vibevoice-podcast

VibeVoice-Podcast: Open‑Source AI‑getriebener Podcast‑Editor

VibeVoice-Podcast: Open‑Source AI‑getriebener Podcast‑Editor

Projektidee

Wichtige Features

Setup & Installation

API‑Konfiguration

Technische Komponenten

Beispiel‑Podcasts

Lizenz

Repository‑Status

Sprachen

Fragen & Antworten

Submit a Comment Cancel reply

Recent Posts

Recent Comments