OSTT – Open Speech-to-Text: Terminalbasiertes Audioaufzeichnungstool

OSTT ist ein terminalbasierter Audioaufzeichnungs- und Transkriptions-Workflow, der Echtzeit‑Wellenformvisualisierung, Lautstärke‑Monitoring und KI‑basierte Transkription mit mehreren Anbietern bietet und sowohl Linux als auch macOS unterstützt.

Key Takeaway

Summary

Projekt: Open Speech-to-Text (OSTT) – interaktives, terminalbasiertes Tool in Rust, optimiert für Performance und minimale Abhängigkeiten.
Core‑Funktionen
- Echtzeit‑Wellenformvisualisierung (Sparkline‑Grafik).
- dBFS‑basierte Lautstärke‑Metering mit Referenz‑Level‑Einstellung.
- Audio‑Clipping‑Erkennung und Pause/Resume‑Support.
- Audio‑Kompression für schnelle API‑Aufrufe.
- Interaktive Transkriptions‑Historie, durchsuchbar und kopierbar.
- Keyword‑Management zur Verbesserung der Transkriptionsgenauigkeit.
Unterstützte Transkriptionsanbieter & Modelle
- OpenAI: gpt-4o-transcribe, gpt-4o-mini-transcribe, whisper-1
- Deepgram: nova-3, nova-2
- DeepInfra: deepinfra-whisper-large-v3, deepinfra-whisper-base
- Groq: groq-whisper-large-v3, groq-whisper-large-v3-turbo
Installation
- macOS: brew install kristoferlund/ostt/ostt oder Shell‑Installer via curl.
- Linux: Arch AUR (yay -S ostt) oder Shell‑Installer.
- Abhängigkeiten (ggf. manuell): ffmpeg, wl-clipboard (Wayland) oder xclip (X11).
Benutzeranmeldung …

Quelle: https://github.com/kristoferlund/ostt

OSTT – Open Speech-to-Text: Terminalbasiertes Audioaufzeichnungstool

OSTT – Open Speech-to-Text: Terminalbasiertes Audioaufzeichnungstool

Key Takeaway

Summary

Submit a Comment Cancel reply

Recent Posts

Recent Comments