Paper2Video präsentiert die erste Benchmark und das erste multi‑agentenbasierte Framework
Key Takeaway
Paper2Video präsentiert die erste Benchmark und das erste multi‑agentenbasierte Framework zur automatischen Erstellung von wissenschaftlichen Präsentationsvideos, was die Produktion von Forschungs‑Videos von Stundenaufwand auf wenige Minuten reduziert.
Summary
- Projektübersicht
- Paper2Video: Automatisierte Videoerstellung aus wissenschaftlichen Arbeiten.
- Autoren: Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou (Show Lab, National University of Singapore).
- Veröffentlichung auf ArXiv (2510.05096), Open-Source-Code auf GitHub, Datensätze auf Hugging Face.
- Inhalt der Website
- TL;DR: Fragen „Wie erstellt man ein Präsentationsvideo aus einer Arbeit?“ und „Wie bewertet man solche Videos?“
- Beispiel‑Demonstrationen für mehrere Papers (Hinton 2022, Jensen Huang 2024, LeCun 2015, Tan Eng Chye 2025)
- Vergleichsdarstellungen („Veo3“ vs. Paper2Video vs. menschlich erstellte Videos).
- Abstract
- Herausforderung: Zeitintensive Erstellung von kurzen (2–10 Min) Präsentationsvideos mit Slides, Untertiteln, Sprecher und Kopfanimation.
- Lösung: Paper2Video Benchmark (101 Papers + zugehörige Videos, Slides, Sprecher‑Metadata).
- Vier neue Metriken – Meta Similarity, PresentArena, PresentQuiz, IP Memory – zur Bewertung der Informationsvermittlung.
- PaperTalker: Multi‑Agenten‑Framework mit vier „Builders“ für Slide‑Erstellung, Untertitelerzeugung, Cursor‑Grounding und Talker‑Erzeugung.
- PaperTalker Pipeline
- Slide Builder: LaTeX-Code für Slides generieren, Layout via Compiler‑Feedback optimieren.
- Subtitle Builder: VLM‑basierte Untertitel und visuelle Fokus‑Prompts erstellen.
- Cursor Builder: Prompts in Cursor‑Koordinaten übersetzen, synchronisieren mit Erzählung.
- Talker Builder: Text‑zu‑Sprache und Talking‑Head‑Module erzeugen eine authentische Sprecher‑Animation.
- Paper2Video Benchmark
- 101 Papers, 13 300 Wörter/Paper, 44,7 Abbildungen, 28,7 Seiten.
- Präsentationen: durchschnittlich 16 Slides, 6 Min 15 Sek. (max. 14 Min).
- Ziel: Evaluierung long‑Horizon‑Agentenaufgaben, die Text, Abbildungen, Slides und gesprochenen Inhalt verknüpfen.
- Metriken
- Fokus auf Vermittlung von Forschungsergebnissen, nicht auf reine Videoästhetik.
- Dimensionen: „Für das Publikum“ (Wirklichkeit der Kernideen, Zugänglichkeit) und „Für den Autor“ (Hervorhebung der Beiträge, Sichtbarkeit).
- Technische und rechtliche Angaben
- BibTeX‑Eintrag für Zitierung.
- Creative‑Commons‑Lizenz (CC‑BY‑SA 4.0).
Related queries
- Wie groß ist der Paper2Video Datensatz und welche Features enthält er?
- Welche vier Metriken werden zur Bewertung der Videos genutzt?
- Wie unterscheidet sich Paper2Video von bestehenden Agenten wie Veo3?
Quelle: https://showlab.github.io/Paper2Video/
