Local‑RAG‑Workspaces – Das selbstgehostete Retrieval‑Augmented‑Generation System für private Dokumenten‑ und Code‑Chats
Local‑RAG‑Workspaces ermöglicht private, projekt‑spezifische Dokumenten‑ und Code‑Chats ohne externe API‑Aufrufe, indem es lokale KI‑Modelle, Vektor‑Suchtechnologie und isolierte Arbeitsräume nutzt.
Key Takeaway
Local‑RAG‑Workspaces ermöglicht private, projekt‑spezifische Dokumenten‑ und Code‑Chats ohne externe API‑Aufrufe, indem es lokale KI‑Modelle, Vektor‑Suchtechnologie und isolierte Arbeitsräume nutzt.
Summary
- Ziel: Selbstgehostetes Retrieval‑Augmented‑Generation (RAG) System für private Dokumenten‑ und Code‑Chats.
- Konzept: Arbeitsbereiche („Workspaces“ / „Spaces“) für isolierte Projekte. Jede Workspaces enthält eigene Dokumente, Embeddings und Chat‑Verläufe. Alles lokal gespeichert – keine externen API‑Calls, maximale Privatsphäre.
- Technologie‑Stack: React für Frontend, FastAPI für Backend, Milvus (Vektor‑DB), MinIO (Objekt‑Storage), SQLite (Chat‑History) sowie Ollama zur Ausführung lokaler LLM‑ und Embedding‑Modelle.
- Multi‑Format‑Support: PDFs, Word, Excel, PowerPoint, Code in über 60 Sprachen, JSON, YAML, CSV, XML, Markdown, diverse Konfig‑Dateien.
- Chat‑Funktion: Echtzeit‑Streaming‑Antworten (ähnlich ChatGPT). Mehrere Chat‑Sitzungen pro Space. Quellenattribution mit Ähnlichkeitswerten. Nicht blocking UI.
- Konfigurierbar pro Space: LLM‑Modelle (llama3.2, mistral, deepseek‑r1, gpt‑oss usw.). Embedding‑Modelle (nomic‑embed‑text, mxbai‑embed‑large, all‑minilm). Chunk‑Größe, Temperatur (0–1).
- Fortgeschrittene Features: 3D/2D‑Visualisierung der Embeddings. Echtzeit‑Indexierungs‑Progress per WebSockets. Automatische Dateifilterung. Multi‑Session‑Chat‑Verlauf. Per‑Space‑Konfiguration.
- Einrichtungsschritte: Abhängigkeiten: Python 3.8+, Node.js 16+, Docker, Docker‑Compose, Ollama. Ollama‑Modelle herunterladen:
nomic-embed-text(für Embeddings) undllama3.2(für Chat)..envkonfigurieren (Ports, MinIO‑Credentials, Ollama‑Host). Docker‑Compose für Milvus + MinIO starten. Backend mituvicornstarten. Frontend mitnpmstarten. - Nutzung: 1. Space erstellen (+ LLM‑ & Embedding‑Modelle wählen). 2. Dateien hochladen oder Verzeichnisse einbinden. 3. Indexierung starten – Echtzeit‑Fortschritt. 4. Chat‑Tab öffnen, Fragen stellen, Quellen einsehen. 5. Einstellungen anpassen (Modelle, Chunk‑Size, Temperatur). 6. Space löschen, falls nicht mehr nötig.
- Experimentell: Nur für Lern‑ und Experimentierzwecke; nicht produktiv einsetzbar ohne zusätzliche Sicherheit.
Related queries
Wie kann ich einen neuen Space in Local RAG Workspaces erstellen?
Welche Modelle muss ich mit Ollama für Embedding‑ und LLM‑Aufgaben herunterladen?
Wie funktionieren die Echtzeit‑Indexierungs‑Fortschrittsanzeigen in Local RAG Workspaces?
