home

SAFi – Das Open‑Source‑Framework für KI‑Governance

Key Takeaway: SAFi ist eine Open‑Source‑Kognitionsarchitektur, die AI‑Modelle mit einer „System‑2“-Struktur – Intellect, Will, Conscience und Spirit – zur Durchsetzung menschlicher Werte und Alignment umhüllt und zur Prüfung von Jailbreak‑Versuchen ein Test‑Demo bereitstellt.

Projektübersicht

  • SAFi (Self‑Alignment Framework) ist ein Jahr in der Entwicklung befindliches Open‑Source‑Tool zur Echtzeit‑Governance von Sprachmodellen wie GPT und Claude.
  • Ziel: Durch Überwachung und Steuerung von Modellergebnissen menschliche Werte bewahren.

Architektur (System 2‑inspiriert)

  1. Intellect – erstellt Rohentwürfe des Modells.
  2. Will – entscheidet, ob ein Entwurf ausgegeben oder blockiert wird.
  3. Conscience – prüft die Entwürfe gegen vordefinierte Kernwerte.
  4. Spirit – ein Exponential Moving Average (EMA) verfolgt den „Ethical Drift“ und korrigiert die Kontexteingabe, um Werteverlust frühzeitig zu erkennen.

Demonstration & Testaufgabe

Der Autor bietet ein Demo‑System mit mehreren Agenten an. Herausforderung: Prüfen, ob die Architektur durch verschiedene Jailbreak‑Ansätze gebrochen werden kann.

Ressourcen

Community‑Interaktion

Veröffentlichung auf Hacker News („Show HN“), um Feedback von der Community zu erhalten.

Related queries

  • Wie kann man SAFi gegen typische Jailbreak‑Techniken testen?
  • Welche Werte sind in SAFi standardmäßig definiert?
  • In welchem Umfang unterstützt SAFi Multi‑Model‑Integration?

Quelle: https://news.ycombinator.com/item?id=46420384