Paper2Video – Automatisierte Generierung von wissenschaftlichen Präsentationsvideos
Paper2Video bietet eine vollständige, automatisierte Pipeline, mit der ein wissenschaftliches Papier in ein Präsentationsvideo umgewandelt werden kann – inklusive Folien, Untertiteln, Sprachgenerierung und optional einem Talk‑Head‑Avatar.
Key Takeaway
- Paper2Video bietet eine vollständige, automatisierte Pipeline, mit der ein wissenschaftliches Papier in ein Präsentationsvideo umgewandelt werden kann – inklusive Folien, Untertiteln, Sprachgenerierung und optional einem Talk‑Head‑Avatar.
Summary
- Projekt: Paper2Video – Open‑Source Repository von ShowLab (NUS) zur automatischen Generierung von wissenschaftlichen Präsentationsvideos.
- Hauptkomponenten
- PaperTalker: Agent, der mehrere Schritte integriert – Folienerstellung, Untertitel, Cursor‑Ausrichtung, Sprachsynthese und optional Talk‑Head‑Rendering.
- Evaluationsbenchmark: Paper2Video stellt ein neues Metrikframework für die Qualität von Präsentationsvideos vor, das über klassische Video‑Metrics wie FVD hinausgeht.
- Input‑Formate
- LaTeX‑Quellcode eines Papers.
- Referenzbild (quadratisch im Hochformat) und Referenzaudio (≈10 s, optional Referenztext).
- Output – Vollständige Video‑Präsentation, einschließlich Slides, Untertiteln und Video‑Stream.
- Benötigte Software/Hardware
- Python 3.10, Conda-Umgebung,
requirements.txt. - NVIDIA‑GPU (empfohlen NVIDIA A6000 mit 48 GB für die vollautomatische Pipeline).
- Optional: separater Conda‑Environment für das Talk‑Head‑Modell Hallo2.
- Python 3.10, Conda-Umgebung,
- LLM‑Configuration
- API‑Keys für Gemini oder OpenAI (idealerweise GPT‑4.1 oder Gemini 2.5‑Pro).
- Lokale Open‑Source‑LLM‑Optionen (z. B. Qwen) über Paper2Poster.
- Pipeline‑Skripte
pipeline.py(vollständig inkl. Talk‑Head).pipeline_light.py(verzichtet auf Talk‑Head für schnellere Verarbeitung).- Parameter:
--model_name_t,--model_name_v,--model_name_talking,--ref_img,--ref_audio,--gpu_list, etc.
- Updates (Stand 2025)
- 2025‑10‑15: Neue Version ohne Talk‑Head für schnellere Generation.
- 2025‑10‑07: Veröffentlichung der arXiv‑Paper und des Datasets.
- 2025‑09‑28: Akzeptanz beim SEA‑Workshop (NeurIPS 2025).
- Extras
- Dataset auf Hugging Face (
ZaynZhu/Paper2Video). - Projekt‑Website mit Beispielen und Demo‑Videos.
- Community‑Feedback auf YC Hacker News, Twitter und Medium.
- Dataset auf Hugging Face (
- Dokumentation
- README (Englisch & Chinese), README‑CN für chinesischsprachige Nutzer.
- Lizenz: MIT.
- Nutzungs‑Workflow
- Environment vorbereiten (
conda create). - LLM‑Keys exportieren.
- Pipeline‑Skript ausführen (mit oder ohne Talk‑Head).
- Ergebnis im angelegten Verzeichnis prüfen.
- Environment vorbereiten (
- Relevant queries
- Wie konfiguriere ich die LLM‑ und VLM‑Keys in der Pipeline?
- Welche Hardware wird empfohlen, wenn ich das Talk‑Head‑Modell einbauen möchte?
- Wo finde ich die Metriken zur Bewertung von Präsentationsvideos im Paper2Video‑Pipeline?
