Misata: Automatisierte Datenbank‑Schema‑Generierung mit LLMs
Key Takeaway
Misata ist ein Werkzeug, das aus einer einfachen Textbeschreibung automatisch ein realistisches, mehrtabelliges synthetisches Datenbankschema erzeugt und Daten generiert – alles ohne manuelles Schema‑Design oder Trainingsdaten.
Summary
- Ziel: Schnell realistische Datensätze aus natürlicher Sprache erzeugen; keine Schema‑Schreibarbeit oder eigene Trainingsdaten nötig.
- Hauptmerkmale: Automatische Schema‑Generierung (inkl. Beziehungen, Geschäftsregeln, Integrität), Unterstützung mehrerer LLM‑Provider (Groq, OpenAI, Ollama), Streaming‑Generierung für 10 M+ Zeilen, einfache Integration über CLI, Python‑API und Jupyter‑Notebooks.
- Installation & Start:
pip install misataBeispiel:
misata generate --story "A SaaS with 50K users, subscriptions, and payments" --use-llm - Python‑API:
from misata import DataSimulator, SchemaConfig from misata.llm_parser import LLMSchemaGenerator llm = LLMSchemaGenerator(provider="groq") config = llm.generate_from_story("...") for table, batch in DataSimulator(config).generate_all(): print(f"Generated {len(batch)} rows for {table}") - CLI‑Optionen: –use-llm, –provider, –model, –output-dir, –rows, –seed
- Business‑Regeln & Constraints: Beispiel: Beschränkung der täglichen Arbeitsstunden in einer
timesheets‑Tabelle. - Datenanpassung: TextGenerator, Customizer, ColumnOverride
- Rausch‑Injection: add_noise, NoiseInjector für zeitlichen Distribution‑Drift
- Performance: 390 k Zeilen pro Sekunde bis 10 M Zeilen im Streaming‑Modus
- Enterprise‑Features: Unterstützung von 10 M+ Zeilen, Enterprise‑Schemata, Pipeline‑Integration, Branchenspezifische Daten, Schulungen. Kontakt: rasinbinabdulla@gmail.com
- License & Author: MIT‑Lizenz, Autor: Muhammed Rasin
- Dokumentation: QUICKSTART.md, README.md, Beispiel‑Notebook im examples/
- GitHub‑Status: Keine Sterne, Forks, Issues; keine Veröffentlichung von Releases.
Quelle: GitHub
