SAFi – Das Open‑Source‑Framework für KI‑Governance

Key Takeaway: SAFi ist eine Open‑Source‑Kognitionsarchitektur, die AI‑Modelle mit einer „System‑2“-Struktur – Intellect, Will, Conscience und Spirit – zur Durchsetzung menschlicher Werte und Alignment umhüllt und zur Prüfung von Jailbreak‑Versuchen ein Test‑Demo bereitstellt.

Projektübersicht

SAFi (Self‑Alignment Framework) ist ein Jahr in der Entwicklung befindliches Open‑Source‑Tool zur Echtzeit‑Governance von Sprachmodellen wie GPT und Claude.
Ziel: Durch Überwachung und Steuerung von Modellergebnissen menschliche Werte bewahren.

Architektur (System 2‑inspiriert)

Intellect – erstellt Rohentwürfe des Modells.
Will – entscheidet, ob ein Entwurf ausgegeben oder blockiert wird.
Conscience – prüft die Entwürfe gegen vordefinierte Kernwerte.
Spirit – ein Exponential Moving Average (EMA) verfolgt den „Ethical Drift“ und korrigiert die Kontexteingabe, um Werteverlust frühzeitig zu erkennen.

Demonstration & Testaufgabe

Der Autor bietet ein Demo‑System mit mehreren Agenten an. Herausforderung: Prüfen, ob die Architektur durch verschiedene Jailbreak‑Ansätze gebrochen werden kann.

Ressourcen

GitHub‑Repository: https://github.com/jnamaya/SAFi
Demo‑Webseite: https://safi.selfalignmentframework.com/
Projekt‑Homepage: https://selfalignmentframework.com/
Lizenz: GPLv3

Community‑Interaktion

Veröffentlichung auf Hacker News („Show HN“), um Feedback von der Community zu erhalten.

Related queries

Wie kann man SAFi gegen typische Jailbreak‑Techniken testen?
Welche Werte sind in SAFi standardmäßig definiert?
In welchem Umfang unterstützt SAFi Multi‑Model‑Integration?

Quelle: https://news.ycombinator.com/item?id=46420384

SAFi – Das Open‑Source‑Framework für KI‑Governance

SAFi – Das Open‑Source‑Framework für KI‑Governance

Projektübersicht

Architektur (System 2‑inspiriert)

Demonstration & Testaufgabe

Ressourcen

Community‑Interaktion

Related queries

Submit a Comment Cancel reply

Recent Posts

Recent Comments

SAFi – Das Open‑Source‑Framework für KI‑Governance

SAFi – Das Open‑Source‑Framework für KI‑Governance

Projektübersicht

Architektur (System 2‑inspiriert)

Demonstration & Testaufgabe

Ressourcen

Community‑Interaktion

Related queries

Submit a Comment Cancel reply

Recent Posts

Recent Comments

Architektur (System 2‑inspiriert)