home

Misata: Automatisierte Datenbank‑Schema‑Generierung mit LLMs

Key Takeaway

Misata ist ein Werkzeug, das aus einer einfachen Textbeschreibung automatisch ein realistisches, mehrtabelliges synthetisches Datenbankschema erzeugt und Daten generiert – alles ohne manuelles Schema‑Design oder Trainingsdaten.

Summary

  • Ziel: Schnell realistische Datensätze aus natürlicher Sprache erzeugen; keine Schema‑Schreibarbeit oder eigene Trainingsdaten nötig.
  • Hauptmerkmale: Automatische Schema‑Generierung (inkl. Beziehungen, Geschäftsregeln, Integrität), Unterstützung mehrerer LLM‑Provider (Groq, OpenAI, Ollama), Streaming‑Generierung für 10 M+ Zeilen, einfache Integration über CLI, Python‑API und Jupyter‑Notebooks.
  • Installation & Start:
    pip install misata
    

    Beispiel:

    misata generate --story "A SaaS with 50K users, subscriptions, and payments" --use-llm
    
  • Python‑API:
    from misata import DataSimulator, SchemaConfig
    from misata.llm_parser import LLMSchemaGenerator
    llm = LLMSchemaGenerator(provider="groq")
    config = llm.generate_from_story("...")
    for table, batch in DataSimulator(config).generate_all():
        print(f"Generated {len(batch)} rows for {table}")
    
  • CLI‑Optionen: –use-llm, –provider, –model, –output-dir, –rows, –seed
  • Business‑Regeln & Constraints: Beispiel: Beschränkung der täglichen Arbeitsstunden in einer timesheets‑Tabelle.
  • Datenanpassung: TextGenerator, Customizer, ColumnOverride
  • Rausch‑Injection: add_noise, NoiseInjector für zeitlichen Distribution‑Drift
  • Performance: 390 k Zeilen pro Sekunde bis 10 M Zeilen im Streaming‑Modus
  • Enterprise‑Features: Unterstützung von 10 M+ Zeilen, Enterprise‑Schemata, Pipeline‑Integration, Branchenspezifische Daten, Schulungen. Kontakt: rasinbinabdulla@gmail.com
  • License & Author: MIT‑Lizenz, Autor: Muhammed Rasin
  • Dokumentation: QUICKSTART.md, README.md, Beispiel‑Notebook im examples/
  • GitHub‑Status: Keine Sterne, Forks, Issues; keine Veröffentlichung von Releases.

Quelle: GitHub