home

SHARP: Photorealistische 3D‑Darstellungen aus einem einzigen Foto in unter einer Sekunde

SHARP ermöglicht photorealistische Ansichten aus einer einzigen Bild in weniger als einer Sekunde, indem es ein 3‑D‑Gauss‑Splat‑Modell erzeugt, das auf jeder GPU realtime gerendert werden kann.

Projektübersicht

  • Repository: apple/ml-sharp
  • Ziel: Ein einzelnes Foto nutzen, um hochwertige, metrische 3‑D‑Darstellungen zu erzeugen, die in Echtzeit gerendert werden können.

Technologie

  • 3‑D‑Gauss‑Splat-Modell (3DGS) als Darstellung
  • Feedforward‑Neural‑Network schätzt die Parameter in <1 Sekunde auf Standard‑GPU
  • Maßstabsbehaftet (metrisch), ermöglicht metrische Kamerabewegungen

Leistung

  • State‑of‑the‑Art bei mehreren Datensätzen: LPIPS um 25 – 34 % reduziert, DISTS um 21 – 43 % reduziert
  • Synthesezeit um drei Größenordnungen schneller als vorherige Modelle

Software‑Erstellung

  • Python‑Umgebung empfohlen: conda create -n sharp python=3.13
  • Installation: pip install -r requirements.txt
  • CLI‑Werkzeuge (sharp predict, sharp render) für Vorhersage und Rendering verfügbar

Modelldatei

  • Automatischer Download des Checkpoints bei erster Ausführung
  • Manuell verfügbar unter: sharp_2572gikvuh.pt

Rendering

  • CPU, CUDA, MPS unterstützen Vorhersage; Video‑Rendering (--render) benötigt CUDA GPU
  • GSplat‑Renderer initialisiert bei erstem Aufruf

Ausgabe

  • 3D‑Gaussian‑Splat‑Dateien im PLY‑Format, kompatibel zu öffentlichen Renderern
  • Koordinatensystem: OpenCV‑Standard (x → Rechts, y → Unten, z → Vorne)

Evaluation & Vergleich

Lizenz & Verweise

  • Code lizenzfrei gemäß LICENSE
  • Modelle unter LICENSE_MODEL
  • Referenz: @inproceedings{Sharp2025:arxiv, …}

Beitrag

  • Zwei Hauptmitarbeiter: Amél Delaunoy, Wei Dong
  • 4.2 k Stars, 251 Forks, 16 Issues, 9 Pull‑Requests

Unterstützung

  • Code of Conduct, Contributing Guides, Security & Pre‑Commit Konfigurationen verfügbar

Quelle: https://github.com/apple/ml-sharp