home

VibeVoice-Podcast: Open‑Source AI‑getriebener Podcast‑Editor

VibeVoice-Podcast ermöglicht das schnelle Erstellen und Exportieren von AI‑getriebenen, mehrstimmigen Podcasts über ein einfaches Web‑Interface mit sofortigem Pre‑Generation‑Caching und JSON‑basiertem Projektmanagement.

Projektidee

  • Ein Open‑Source‑Frontend zum Erstellen von Podcasts mit KI‑Text‑zu‑Speech (TTS).
  • Unterstützt mehrere Sprecher (Voice‑Assignments) und unbegrenzte Textsegmente.
  • Audio wird auf dem Client vorab generiert, gespeichert und sofort wiedergegeben – garantiert konsistente Wiedergabe.

Wichtige Features

  • Multi‑Segment Editing: Unbegrenzte Textsegmente einfügen, bearbeiten und mit jeweiligen Stimmen verknüpfen.
  • Per‑Segment Voices: Jede Sektion kann eine andere Stimme aus einer Dropdown‑Liste beziehen.
  • Audio Pre‑Generation & Caching: Beim Klicken auf „Generate“ wird der Audioclip erzeugt und im Cache gespeichert.
  • Real‑Time Preview: Einzelne Segmente oder die gesamte Podcast‑Liste können sofort abgespielt werden.
  • Export:
    • WAV: Komplettes Podcast‑Audio als einzelne .wav‑Datei downloaden.
    • JSON: Projektdatei exportieren, um später fortzufahren.
  • Import: Bereits erstellte JSON‑Projekte wieder einlesen.
  • Batch‑Generation: „Generate All“ erzeugt alle fehlenden Segmente gleichzeitig.
  • Cache‑Invalidierung: Änderungen an Text oder Stimme führen zur Cache‑Löschung des jeweiligen Segments.

Setup & Installation

  1. VibeVoice‑Repo klonen: git clone https://github.com/microsoft/VibeVoice && cd VibeVoice
  2. Backend‑Server starten
    • Server‑Script: cp example/server.py /path/to/VibeVoice/demo/server.py
    • Server ausführen:
      cd /path/to/VibeVoice
      python demo/server.py --model microsoft/VibeVoice-Realtime-0.5B --device cuda --port 8880
    • Verfügbar unter http://localhost:8880
  3. Frontend starten
    • Abhängigkeiten installieren: bun install oder npm install
    • Dev‑Server starten: bun dev oder npm run dev
    • Interface unter http://localhost:5173

API‑Konfiguration

  • Frontend verbindet sich per API_BASE = "http://localhost:8880/api".
  • Änderungen erfolgen in src/App.tsx.

Technische Komponenten

  • Frontend: React + TypeScript + Vite + Tailwind CSS.
  • Backend: FastAPI + VibeVoice TTS‑Engine (microsoft/VibeVoice-Realtime-0.5B).
  • Caching: Client‑seitiges Caching über lokale Speicher.

Beispiel‑Podcasts

Im Verzeichnis example/ liegen JSON‑ und WAV‑Beispiele zum Importieren.

Lizenz

MIT‑Lizenz, frei nutzbar und modifizierbar.

Repository‑Status

2 Sterne, 1 Fork, keine aktuellen Issues oder PRs.

Sprachen

Primär TypeScript (72 %), Python (23 %), CSS (4 %) & HTML (0,4 %).

Fragen & Antworten

  • Wie installiere ich VibeVoice und starte das Backend? – Schritt‑für‑Schritt-Anleitung oben.
  • Welche Stimmen stehen als Optionen im Dropdown zur Verfügung? – Entspricht den Voice‑Assignments des Projekts.
  • Wie kann ich ein vorhandenes JSON‑Projekt in VibeVoice importieren? – Wählen Sie die Import‑Option im Frontend.

Quelle: https://github.com/skorotkiewicz/vibevoice-podcast