home

Paper2Video: Benchmark und multi‑agentenbasierte Videoerstellung

Paper2Video präsentiert die erste Benchmark und das erste multi‑agentenbasierte Framework zur automatischen Erstellung von wissenschaftlichen Präsentationsvideos, was die Produktion von Forschungs‑Videos von Stundenaufwand auf wenige Minuten reduziert.

Projektübersicht: Paper2Video automatisiert die Videoerstellung aus wissenschaftlichen Arbeiten. Die Autoren sind Zeyu Zhu, Kevin Qinghong Lin und Mike Zheng Shou aus dem Show Lab der National University of Singapore. Die Arbeit wurde auf ArXiv (2510.05096) veröffentlicht, der Open‑Source-Code steht auf GitHub und die Datensätze sind bei Hugging Face verfügbar.

Inhalt der Website: TL;DR-Fragen wie „Wie erstelle ich ein Präsentationsvideo aus einer Arbeit?“ und „Wie bewerte ich solche Videos?“ werden beantwortet. Es gibt Beispiel‑Demonstrationen für mehrere Papers (Hinton 2022, Jensen Huang 2024, LeCun 2015, Tan Eng Chye 2025) sowie Vergleichsdarstellungen („Veo3“ vs. Paper2Video vs. menschlich erstellte Videos).

Abstract: Die Herausforderung ist die zeitintensive Erstellung kurzer (2–10 Min) Präsentationsvideos mit Slides, Untertiteln, Sprecher und Kopfanimation. Paper2Video bietet einen Benchmark (101 Papers + zugehörige Videos, Slides, Sprecher‑Metadata) sowie vier neue Metriken – Meta Similarity, PresentArena, PresentQuiz, IP Memory – zur Bewertung der Informationsvermittlung.

PaperTalker Pipeline: Slide Builder generiert LaTeX-Code für Slides und optimiert das Layout via Compiler‑Feedback. Subtitle Builder erstellt VLM‑basierte Untertitel und visuelle Fokus‑Prompts. Cursor Builder übersetzt Prompts in Cursor‑Koordinaten, synchronisiert sie mit der Erzählung. Talker Builder erzeugt Text‑zu‑Sprache und Talking‑Head‑Module für authentische Sprecher‑Animationen.

Paper2Video Benchmark: 101 Papers, 13 300 Wörter/Paper, 44,7 Abbildungen, 28,7 Seiten. Präsentationen haben durchschnittlich 16 Slides und dauern 6 Min 15 Sek. (max. 14 Min). Ziel ist die Evaluierung von long‑Horizon‑Agentenaufgaben, die Text, Abbildungen, Slides und gesprochenen Inhalt verknüpfen.

Metriken: Fokus liegt auf Vermittlung von Forschungsergebnissen, nicht auf reiner Videoästhetik. Die Dimensionen umfassen „Für das Publikum“ (Wirklichkeit der Kernideen, Zugänglichkeit) und „Für den Autor“ (Hervorhebung der Beiträge, Sichtbarkeit).

Technische und rechtliche Angaben: Ein BibTeX‑Eintrag ist verfügbar und das Projekt nutzt die Creative‑Commons‑Lizenz CC‑BY‑SA 4.0.

Quelle: https://showlab.github.io/Paper2Video/