SHARP: Photorealistische 3D‑Darstellungen aus einem einzigen Foto in unter einer Sekunde
SHARP ermöglicht photorealistische Ansichten aus einer einzigen Bild in weniger als einer Sekunde, indem es ein 3‑D‑Gauss‑Splat‑Modell erzeugt, das auf jeder GPU realtime gerendert werden kann.
Projektübersicht
- Repository: apple/ml-sharp
- Ziel: Ein einzelnes Foto nutzen, um hochwertige, metrische 3‑D‑Darstellungen zu erzeugen, die in Echtzeit gerendert werden können.
Technologie
- 3‑D‑Gauss‑Splat-Modell (3DGS) als Darstellung
- Feedforward‑Neural‑Network schätzt die Parameter in <1 Sekunde auf Standard‑GPU
- Maßstabsbehaftet (metrisch), ermöglicht metrische Kamerabewegungen
Leistung
- State‑of‑the‑Art bei mehreren Datensätzen: LPIPS um 25 – 34 % reduziert, DISTS um 21 – 43 % reduziert
- Synthesezeit um drei Größenordnungen schneller als vorherige Modelle
Software‑Erstellung
- Python‑Umgebung empfohlen:
conda create -n sharp python=3.13 - Installation:
pip install -r requirements.txt - CLI‑Werkzeuge (
sharp predict,sharp render) für Vorhersage und Rendering verfügbar
Modelldatei
- Automatischer Download des Checkpoints bei erster Ausführung
- Manuell verfügbar unter: sharp_2572gikvuh.pt
Rendering
- CPU, CUDA, MPS unterstützen Vorhersage; Video‑Rendering (
--render) benötigt CUDA GPU - GSplat‑Renderer initialisiert bei erstem Aufruf
Ausgabe
- 3D‑Gaussian‑Splat‑Dateien im PLY‑Format, kompatibel zu öffentlichen Renderern
- Koordinatensystem: OpenCV‑Standard (x → Rechts, y → Unten, z → Vorne)
Evaluation & Vergleich
- Qualitative Beispiele unter https://apple.github.io/ml-sharp/
- Quantitative Ergebnisse im zugehörigen Paper (arXiv 2512.10685)
Lizenz & Verweise
- Code lizenzfrei gemäß LICENSE
- Modelle unter LICENSE_MODEL
- Referenz: @inproceedings{Sharp2025:arxiv, …}
Beitrag
- Zwei Hauptmitarbeiter: Amél Delaunoy, Wei Dong
- 4.2 k Stars, 251 Forks, 16 Issues, 9 Pull‑Requests
Unterstützung
- Code of Conduct, Contributing Guides, Security & Pre‑Commit Konfigurationen verfügbar
