home

Paper2Video – Automatisierte Generierung von wissenschaftlichen Präsentationsvideos

Paper2Video bietet eine vollständige, automatisierte Pipeline, mit der ein wissenschaftliches Papier in ein Präsentationsvideo umgewandelt werden kann – inklusive Folien, Untertiteln, Sprachgenerierung und optional einem Talk‑Head‑Avatar.

Key Takeaway

  • Paper2Video bietet eine vollständige, automatisierte Pipeline, mit der ein wissenschaftliches Papier in ein Präsentationsvideo umgewandelt werden kann – inklusive Folien, Untertiteln, Sprachgenerierung und optional einem Talk‑Head‑Avatar.

Summary

  • Projekt: Paper2Video – Open‑Source Repository von ShowLab (NUS) zur automatischen Generierung von wissenschaftlichen Präsentationsvideos.
  • Hauptkomponenten
    • PaperTalker: Agent, der mehrere Schritte integriert – Folienerstellung, Untertitel, Cursor‑Ausrichtung, Sprachsynthese und optional Talk‑Head‑Rendering.
    • Evaluationsbenchmark: Paper2Video stellt ein neues Metrikframework für die Qualität von Präsentationsvideos vor, das über klassische Video‑Metrics wie FVD hinausgeht.
  • Input‑Formate
    • LaTeX‑Quellcode eines Papers.
    • Referenzbild (quadratisch im Hochformat) und Referenzaudio (≈10 s, optional Referenztext).
  • Output – Vollständige Video‑Präsentation, einschließlich Slides, Untertiteln und Video‑Stream.
  • Benötigte Software/Hardware
    • Python 3.10, Conda-Umgebung, requirements.txt.
    • NVIDIA‑GPU (empfohlen NVIDIA A6000 mit 48 GB für die vollautomatische Pipeline).
    • Optional: separater Conda‑Environment für das Talk‑Head‑Modell Hallo2.
  • LLM‑Configuration
    • API‑Keys für Gemini oder OpenAI (idealerweise GPT‑4.1 oder Gemini 2.5‑Pro).
    • Lokale Open‑Source‑LLM‑Optionen (z. B. Qwen) über Paper2Poster.
  • Pipeline‑Skripte
    • pipeline.py (vollständig inkl. Talk‑Head).
    • pipeline_light.py (verzichtet auf Talk‑Head für schnellere Verarbeitung).
    • Parameter: --model_name_t, --model_name_v, --model_name_talking, --ref_img, --ref_audio, --gpu_list, etc.
  • Updates (Stand 2025)
    • 2025‑10‑15: Neue Version ohne Talk‑Head für schnellere Generation.
    • 2025‑10‑07: Veröffentlichung der arXiv‑Paper und des Datasets.
    • 2025‑09‑28: Akzeptanz beim SEA‑Workshop (NeurIPS 2025).
  • Extras
    • Dataset auf Hugging Face (ZaynZhu/Paper2Video).
    • Projekt‑Website mit Beispielen und Demo‑Videos.
    • Community‑Feedback auf YC Hacker News, Twitter und Medium.
  • Dokumentation
    • README (Englisch & Chinese), README‑CN für chinesischsprachige Nutzer.
    • Lizenz: MIT.
  • Nutzungs‑Workflow
    1. Environment vorbereiten (conda create).
    2. LLM‑Keys exportieren.
    3. Pipeline‑Skript ausführen (mit oder ohne Talk‑Head).
    4. Ergebnis im angelegten Verzeichnis prüfen.
  • Relevant queries
    • Wie konfiguriere ich die LLM‑ und VLM‑Keys in der Pipeline?
    • Welche Hardware wird empfohlen, wenn ich das Talk‑Head‑Modell einbauen möchte?
    • Wo finde ich die Metriken zur Bewertung von Präsentationsvideos im Paper2Video‑Pipeline?

Quelle: https://github.com/showlab/Paper2Video