Paper2Video: Automatisierte Pipeline zur Erstellung von wissenschaftlichen Präsentationsvideos
Paper2Video ist ein Open‑Source-Projekt von ShowLab (NUS), das eine vollständig automatisierte Pipeline zur Umwandlung wissenschaftlicher Papers in Präsentationsvideos bietet. Dabei werden Folien, Untertitel, Sprachgenerierung und optional ein Talk‑Head‑Avatar generiert.
Projektübersicht
- Projekt: Paper2Video – Open‑Source Repository von ShowLab (NUS)
- Hauptkomponenten: PaperTalker (Folienerstellung, Untertitel, Cursor‑Ausrichtung, Sprachsynthese, Talk‑Head‑Rendering), Evaluationsbenchmark (neues Metrikframework über klassische Video‑Metrics wie FVD hinaus)
- Input‑Formate: LaTeX‑Quellcode, optional Referenzbild und Referenzaudio
- Output: Vollständige Video‑Präsentation (Slides, Untertitel, Video‑Stream)
Benötigte Software/Hardware
- Python 3.10, Conda‑Umgebung,
requirements.txt - NVIDIA‑GPU (empfohlen NVIDIA A6000 mit 48 GB für die vollautomatische Pipeline)
- Optional: separater Conda‑Environment für das Talk‑Head‑Modell Hallo2
LLM‑Konfiguration
- API‑Keys für Gemini oder OpenAI (idealerweise GPT‑4.1 oder Gemini 2.5‑Pro)
- Lokale Open‑Source‑LLM‑Optionen (z. B. Qwen) über Paper2Poster
Pipeline‑Skripte
pipeline.py(vollständig inkl. Talk‑Head)pipeline_light.py(verzichtet auf Talk‑Head für schnellere Verarbeitung)- Parameter:
--model_name_t,--model_name_v,--model_name_talking,--ref_img,--ref_audio,--gpu_list, etc.
Aktuelle Updates (Stand 2025)
- 2025‑10‑15: Neue Version ohne Talk‑Head für schnellere Generation.
- 2025‑10‑07: Veröffentlichung der arXiv‑Paper und des Datasets.
- 2025‑09‑28: Akzeptanz beim SEA‑Workshop (NeurIPS 2025).
Extras
- Dataset auf Hugging Face (
ZaynZhu/Paper2Video) - Projekt‑Website mit Beispielen und Demo‑Videos
- Community‑Feedback auf YC Hacker News, Twitter und Medium
Dokumentation
- README (Englisch & Chinese), README‑CN für chinesischsprachige Nutzer
- Lizenz: MIT
Nutzungs‑Workflow
- Environment vorbereiten (
conda create) - LLM‑Keys exportieren
- Pipeline‑Skript ausführen (mit oder ohne Talk‑Head)
- Ergebnis im angelegten Verzeichnis prüfen
Fragen & Antworten
- Wie konfiguriere ich die LLM‑ und VLM‑Keys in der Pipeline? Die Keys werden über Umgebungsvariablen (z. B.
OPENAI_API_KEY,GEMINI_API_KEY) in das Konfigurationsfile oder als--llm_api_keyund--vlm_api_keyübergeben. - Welche Hardware wird empfohlen, wenn ich das Talk‑Head‑Modell einbauen möchte? Für die Talk‑Head‑Pipeline empfiehlt sich ein NVIDIA‑A6000 mit 48 GB VRAM; alternativ kann ein RTX 3090 ausreichen, jedoch dauert die Verarbeitung länger.
- Wo finde ich die Metriken zur Bewertung von Präsentationsvideos im Paper2Video‑Pipeline? Die Metriken sind im Unterordner
metricsdes Repos enthalten und umfassen unter anderemFVD,BLEU,WERund die neu eingeführtenVideo‑Content‑Similarity-Scores.
