home

Paper2Video: Automatisierte Pipeline zur Erstellung von wissenschaftlichen Präsentationsvideos

Paper2Video ist ein Open‑Source-Projekt von ShowLab (NUS), das eine vollständig automatisierte Pipeline zur Umwandlung wissenschaftlicher Papers in Präsentationsvideos bietet. Dabei werden Folien, Untertitel, Sprachgenerierung und optional ein Talk‑Head‑Avatar generiert.

Projektübersicht

  • Projekt: Paper2Video – Open‑Source Repository von ShowLab (NUS)
  • Hauptkomponenten: PaperTalker (Folienerstellung, Untertitel, Cursor‑Ausrichtung, Sprachsynthese, Talk‑Head‑Rendering), Evaluationsbenchmark (neues Metrikframework über klassische Video‑Metrics wie FVD hinaus)
  • Input‑Formate: LaTeX‑Quellcode, optional Referenzbild und Referenzaudio
  • Output: Vollständige Video‑Präsentation (Slides, Untertitel, Video‑Stream)

Benötigte Software/Hardware

  • Python 3.10, Conda‑Umgebung, requirements.txt
  • NVIDIA‑GPU (empfohlen NVIDIA A6000 mit 48 GB für die vollautomatische Pipeline)
  • Optional: separater Conda‑Environment für das Talk‑Head‑Modell Hallo2

LLM‑Konfiguration

  • API‑Keys für Gemini oder OpenAI (idealerweise GPT‑4.1 oder Gemini 2.5‑Pro)
  • Lokale Open‑Source‑LLM‑Optionen (z. B. Qwen) über Paper2Poster

Pipeline‑Skripte

  • pipeline.py (vollständig inkl. Talk‑Head)
  • pipeline_light.py (verzichtet auf Talk‑Head für schnellere Verarbeitung)
  • Parameter: --model_name_t, --model_name_v, --model_name_talking, --ref_img, --ref_audio, --gpu_list, etc.

Aktuelle Updates (Stand 2025)

  • 2025‑10‑15: Neue Version ohne Talk‑Head für schnellere Generation.
  • 2025‑10‑07: Veröffentlichung der arXiv‑Paper und des Datasets.
  • 2025‑09‑28: Akzeptanz beim SEA‑Workshop (NeurIPS 2025).

Extras

  • Dataset auf Hugging Face (ZaynZhu/Paper2Video)
  • Projekt‑Website mit Beispielen und Demo‑Videos
  • Community‑Feedback auf YC Hacker News, Twitter und Medium

Dokumentation

  • README (Englisch & Chinese), README‑CN für chinesischsprachige Nutzer
  • Lizenz: MIT

Nutzungs‑Workflow

  1. Environment vorbereiten (conda create)
  2. LLM‑Keys exportieren
  3. Pipeline‑Skript ausführen (mit oder ohne Talk‑Head)
  4. Ergebnis im angelegten Verzeichnis prüfen

Fragen & Antworten

  • Wie konfiguriere ich die LLM‑ und VLM‑Keys in der Pipeline? Die Keys werden über Umgebungsvariablen (z. B. OPENAI_API_KEY, GEMINI_API_KEY) in das Konfigurationsfile oder als --llm_api_key und --vlm_api_key übergeben.
  • Welche Hardware wird empfohlen, wenn ich das Talk‑Head‑Modell einbauen möchte? Für die Talk‑Head‑Pipeline empfiehlt sich ein NVIDIA‑A6000 mit 48 GB VRAM; alternativ kann ein RTX 3090 ausreichen, jedoch dauert die Verarbeitung länger.
  • Wo finde ich die Metriken zur Bewertung von Präsentationsvideos im Paper2Video‑Pipeline? Die Metriken sind im Unterordner metrics des Repos enthalten und umfassen unter anderem FVD, BLEU, WER und die neu eingeführten Video‑Content‑Similarity-Scores.

Quelle: https://github.com/showlab/Paper2Video