Vision – Open‑Source‑Toolset für macOS zur Automatisierung
Vision ist ein Open‑Source‑Toolset für macOS, das LLMs ermöglichen soll, die Desktopumgebung visuell zu erfassen und interaktiv zu steuern – von Screenshots und OCR bis zu Maus-/Tastatur‑ und PTZ-Webcam‑Kontrolle.
Projektübersicht
- Open‑Source‑Repository auf GitHub (kxrm/vision).
- Lizenz: MIT.
- Ziel: Vision‑basierte Automatisierung für macOS.
Hauptfunktionen
- Screenshot Capture: Vollbild, einzelne Fenster oder Regionen, sogar mit Koordinaten‑Raster.
- OCR‑basierter Interaktion: Text klicken, Seiten lesen, Elemente finden.
- Maus & Tastatur: Klicks, Tippen, Tastenkombinationen, Scrollen.
- Webcam mit PTZ: Snapshots aufnehmen, Kamera steuern (Pan, Tilt, Zoom).
- Game Controller: Vision‑basierte autonome Spielsteuerung.
Installation & Setup
- Systemvoraussetzungen: macOS 12+, Python 3.11+, Homebrew.
- Befehle:
brew install cliclick,brew install ffmpeg; optionalnpm i -g uvccfür PTZ‑Kontrolle. - Skript
./setup.sherstellt ein virtuelles Python‑Environment und installiert Abhängigkeiten. - Explizite macOS‑Berechtigungen: Bildschirmaufnahme, Zugänglichkeit, Kamera. Prüfen & gewähren:
./bin/permissions.sh,./setup.sh --permissions.
Command‑Line‑Tools
./bin/screenshot.sh– Desktop‑Screenshots../bin/interact.sh– Maus, Tastatur, OCR, App‑Kontrolle../bin/snapshot.sh– Webcam‑Capture../bin/joystick.sh– Vision‑basierter Game‑Controller.
Quick‑Start‑Beispiele
- Screenshot:
./bin/screenshot.sh. - Web‑Interaktion:
./bin/interact.sh --in-app Firefox --read-page. - Textklick:
./bin/interact.sh --in-app Firefox --click-text "Sign In". - Webcam‑Snapshot & PTZ:
./bin/snapshot.sh --look 45 -20;./bin/snapshot.sh --zoom 2.0. - Game‑Automation:
./bin/joystick.sh --in-app "Python" --target green --self blue --strategy chase --duration 60.
Projektstruktur
bin/: CLI‑Skripte.lib/: Python‑Bibliothek.skills/: Claude‑Code‑Skills.agents/: Subagent‑Definitionen.docs/: Erweiterte Dokumentation.venv/: Nicht im Git enthaltenes Python‑Venv.
Claude Code Integration
- Skills:
/screenshot,/webcam,/game,/browse. - Subagent:
/agent game-controller.
Dokumentation & Beispiele
- Detaillierte Nutzung in
CLAUDE.md. - Beispiel‑Befehle für Web‑Browsen, Screenshot‑Grid, PTZ‑Steuerung, Game‑Automation.
Aktualität
- Keine veröffentlichten Releases oder Pakete.
- 1 Star, 0 Forks, 0 Watches.
Erweiterbarkeit
- Open‑Source‑Code erlaubt individuelle Anpassungen und Erweiterungen.
Quelle
GitHub Repository: kxrm/vision
