SAFi – Das Open‑Source‑Framework für KI‑Governance
Key Takeaway: SAFi ist eine Open‑Source‑Kognitionsarchitektur, die AI‑Modelle mit einer „System‑2“-Struktur – Intellect, Will, Conscience und Spirit – zur Durchsetzung menschlicher Werte und Alignment umhüllt und zur Prüfung von Jailbreak‑Versuchen ein Test‑Demo bereitstellt.
Projektübersicht
- SAFi (Self‑Alignment Framework) ist ein Jahr in der Entwicklung befindliches Open‑Source‑Tool zur Echtzeit‑Governance von Sprachmodellen wie GPT und Claude.
- Ziel: Durch Überwachung und Steuerung von Modellergebnissen menschliche Werte bewahren.
Architektur (System 2‑inspiriert)
- Intellect – erstellt Rohentwürfe des Modells.
- Will – entscheidet, ob ein Entwurf ausgegeben oder blockiert wird.
- Conscience – prüft die Entwürfe gegen vordefinierte Kernwerte.
- Spirit – ein Exponential Moving Average (EMA) verfolgt den „Ethical Drift“ und korrigiert die Kontexteingabe, um Werteverlust frühzeitig zu erkennen.
Demonstration & Testaufgabe
Der Autor bietet ein Demo‑System mit mehreren Agenten an. Herausforderung: Prüfen, ob die Architektur durch verschiedene Jailbreak‑Ansätze gebrochen werden kann.
Ressourcen
- GitHub‑Repository: https://github.com/jnamaya/SAFi
- Demo‑Webseite: https://safi.selfalignmentframework.com/
- Projekt‑Homepage: https://selfalignmentframework.com/
- Lizenz: GPLv3
Community‑Interaktion
Veröffentlichung auf Hacker News („Show HN“), um Feedback von der Community zu erhalten.
Related queries
- Wie kann man SAFi gegen typische Jailbreak‑Techniken testen?
- Welche Werte sind in SAFi standardmäßig definiert?
- In welchem Umfang unterstützt SAFi Multi‑Model‑Integration?
