home

Vision – Open‑Source‑Toolset für macOS zur Automatisierung

Vision ist ein Open‑Source‑Toolset für macOS, das LLMs ermöglichen soll, die Desktopumgebung visuell zu erfassen und interaktiv zu steuern – von Screenshots und OCR bis zu Maus-/Tastatur‑ und PTZ-Webcam‑Kontrolle.

Projektübersicht

  • Open‑Source‑Repository auf GitHub (kxrm/vision).
  • Lizenz: MIT.
  • Ziel: Vision‑basierte Automatisierung für macOS.

Hauptfunktionen

  • Screenshot Capture: Vollbild, einzelne Fenster oder Regionen, sogar mit Koordinaten‑Raster.
  • OCR‑basierter Interaktion: Text klicken, Seiten lesen, Elemente finden.
  • Maus & Tastatur: Klicks, Tippen, Tastenkombinationen, Scrollen.
  • Webcam mit PTZ: Snapshots aufnehmen, Kamera steuern (Pan, Tilt, Zoom).
  • Game Controller: Vision‑basierte autonome Spielsteuerung.

Installation & Setup

  • Systemvoraussetzungen: macOS 12+, Python 3.11+, Homebrew.
  • Befehle: brew install cliclick, brew install ffmpeg; optional npm i -g uvcc für PTZ‑Kontrolle.
  • Skript ./setup.sh erstellt ein virtuelles Python‑Environment und installiert Abhängigkeiten.
  • Explizite macOS‑Berechtigungen: Bildschirmaufnahme, Zugänglichkeit, Kamera. Prüfen & gewähren: ./bin/permissions.sh, ./setup.sh --permissions.

Command‑Line‑Tools

  • ./bin/screenshot.sh – Desktop‑Screenshots.
  • ./bin/interact.sh – Maus, Tastatur, OCR, App‑Kontrolle.
  • ./bin/snapshot.sh – Webcam‑Capture.
  • ./bin/joystick.sh – Vision‑basierter Game‑Controller.

Quick‑Start‑Beispiele

  • Screenshot: ./bin/screenshot.sh.
  • Web‑Interaktion: ./bin/interact.sh --in-app Firefox --read-page.
  • Textklick: ./bin/interact.sh --in-app Firefox --click-text "Sign In".
  • Webcam‑Snapshot & PTZ: ./bin/snapshot.sh --look 45 -20; ./bin/snapshot.sh --zoom 2.0.
  • Game‑Automation: ./bin/joystick.sh --in-app "Python" --target green --self blue --strategy chase --duration 60.

Projektstruktur

  • bin/: CLI‑Skripte.
  • lib/: Python‑Bibliothek.
  • skills/: Claude‑Code‑Skills.
  • agents/: Subagent‑Definitionen.
  • docs/: Erweiterte Dokumentation.
  • venv/: Nicht im Git enthaltenes Python‑Venv.

Claude Code Integration

  • Skills: /screenshot, /webcam, /game, /browse.
  • Subagent: /agent game-controller.

Dokumentation & Beispiele

  • Detaillierte Nutzung in CLAUDE.md.
  • Beispiel‑Befehle für Web‑Browsen, Screenshot‑Grid, PTZ‑Steuerung, Game‑Automation.

Aktualität

  • Keine veröffentlichten Releases oder Pakete.
  • 1 Star, 0 Forks, 0 Watches.

Erweiterbarkeit

  • Open‑Source‑Code erlaubt individuelle Anpassungen und Erweiterungen.

Quelle

GitHub Repository: kxrm/vision