Paper2Video: Automatisierte Pipeline zur Erstellung von wissenschaftlichen Präsentationsvideos

Paper2Video ist ein Open‑Source-Projekt von ShowLab (NUS), das eine vollständig automatisierte Pipeline zur Umwandlung wissenschaftlicher Papers in Präsentationsvideos bietet. Dabei werden Folien, Untertitel, Sprachgenerierung und optional ein Talk‑Head‑Avatar generiert.

Projektübersicht

Projekt: Paper2Video – Open‑Source Repository von ShowLab (NUS)
Hauptkomponenten: PaperTalker (Folienerstellung, Untertitel, Cursor‑Ausrichtung, Sprachsynthese, Talk‑Head‑Rendering), Evaluationsbenchmark (neues Metrikframework über klassische Video‑Metrics wie FVD hinaus)
Input‑Formate: LaTeX‑Quellcode, optional Referenzbild und Referenzaudio
Output: Vollständige Video‑Präsentation (Slides, Untertitel, Video‑Stream)

Benötigte Software/Hardware

Python 3.10, Conda‑Umgebung, requirements.txt
NVIDIA‑GPU (empfohlen NVIDIA A6000 mit 48 GB für die vollautomatische Pipeline)
Optional: separater Conda‑Environment für das Talk‑Head‑Modell Hallo2

LLM‑Konfiguration

API‑Keys für Gemini oder OpenAI (idealerweise GPT‑4.1 oder Gemini 2.5‑Pro)
Lokale Open‑Source‑LLM‑Optionen (z. B. Qwen) über Paper2Poster

Pipeline‑Skripte

pipeline.py (vollständig inkl. Talk‑Head)
pipeline_light.py (verzichtet auf Talk‑Head für schnellere Verarbeitung)
Parameter: --model_name_t, --model_name_v, --model_name_talking, --ref_img, --ref_audio, --gpu_list, etc.

Aktuelle Updates (Stand 2025)

2025‑10‑15: Neue Version ohne Talk‑Head für schnellere Generation.
2025‑10‑07: Veröffentlichung der arXiv‑Paper und des Datasets.
2025‑09‑28: Akzeptanz beim SEA‑Workshop (NeurIPS 2025).

Extras

Dataset auf Hugging Face (ZaynZhu/Paper2Video)
Projekt‑Website mit Beispielen und Demo‑Videos
Community‑Feedback auf YC Hacker News, Twitter und Medium

Dokumentation

README (Englisch & Chinese), README‑CN für chinesischsprachige Nutzer
Lizenz: MIT

Nutzungs‑Workflow

Environment vorbereiten (conda create)
LLM‑Keys exportieren
Pipeline‑Skript ausführen (mit oder ohne Talk‑Head)
Ergebnis im angelegten Verzeichnis prüfen

Fragen & Antworten

Wie konfiguriere ich die LLM‑ und VLM‑Keys in der Pipeline? Die Keys werden über Umgebungsvariablen (z. B. OPENAI_API_KEY, GEMINI_API_KEY) in das Konfigurationsfile oder als --llm_api_key und --vlm_api_key übergeben.
Welche Hardware wird empfohlen, wenn ich das Talk‑Head‑Modell einbauen möchte? Für die Talk‑Head‑Pipeline empfiehlt sich ein NVIDIA‑A6000 mit 48 GB VRAM; alternativ kann ein RTX 3090 ausreichen, jedoch dauert die Verarbeitung länger.
Wo finde ich die Metriken zur Bewertung von Präsentationsvideos im Paper2Video‑Pipeline? Die Metriken sind im Unterordner metrics des Repos enthalten und umfassen unter anderem FVD, BLEU, WER und die neu eingeführten Video‑Content‑Similarity-Scores.

Quelle: https://github.com/showlab/Paper2Video

Paper2Video: Automatisierte Pipeline zur Erstellung von wissenschaftlichen Präsentationsvideos

Paper2Video: Automatisierte Pipeline zur Erstellung von wissenschaftlichen Präsentationsvideos

Projektübersicht

Benötigte Software/Hardware

LLM‑Konfiguration

Pipeline‑Skripte

Aktuelle Updates (Stand 2025)

Extras

Dokumentation

Nutzungs‑Workflow

Fragen & Antworten

Submit a Comment Cancel reply

Recent Posts

Recent Comments