home

OSTT – Open Speech-to-Text: Terminalbasiertes Audioaufzeichnungstool

OSTT ist ein terminalbasierter Audioaufzeichnungs- und Transkriptions-Workflow, der Echtzeit‑Wellenformvisualisierung, Lautstärke‑Monitoring und KI‑basierte Transkription mit mehreren Anbietern bietet und sowohl Linux als auch macOS unterstützt.

Key Takeaway

OSTT ist ein terminalbasierter Audioaufzeichnungs- und Transkriptions-Workflow, der Echtzeit‑Wellenformvisualisierung, Lautstärke‑Monitoring und KI‑basierte Transkription mit mehreren Anbietern bietet und sowohl Linux als auch macOS unterstützt.

Summary

  • Projekt: Open Speech-to-Text (OSTT) – interaktives, terminalbasiertes Tool in Rust, optimiert für Performance und minimale Abhängigkeiten.
  • Core‑Funktionen
    • Echtzeit‑Wellenformvisualisierung (Sparkline‑Grafik).
    • dBFS‑basierte Lautstärke‑Metering mit Referenz‑Level‑Einstellung.
    • Audio‑Clipping‑Erkennung und Pause/Resume‑Support.
    • Audio‑Kompression für schnelle API‑Aufrufe.
    • Interaktive Transkriptions‑Historie, durchsuchbar und kopierbar.
    • Keyword‑Management zur Verbesserung der Transkriptionsgenauigkeit.
  • Unterstützte Transkriptionsanbieter & Modelle
    • OpenAI: gpt-4o-transcribe, gpt-4o-mini-transcribe, whisper-1
    • Deepgram: nova-3, nova-2
    • DeepInfra: deepinfra-whisper-large-v3, deepinfra-whisper-base
    • Groq: groq-whisper-large-v3, groq-whisper-large-v3-turbo
  • Installation
    • macOS: brew install kristoferlund/ostt/ostt oder Shell‑Installer via curl.
    • Linux: Arch AUR (yay -S ostt) oder Shell‑Installer.
    • Abhängigkeiten (ggf. manuell): ffmpeg, wl-clipboard (Wayland) oder xclip (X11).
  • Benutzeranmeldung

Quelle: https://github.com/kristoferlund/ostt