Introspektion bei Qwen2.5‑Coder‑32B durch gezielte Layer‑Steuerung

Key Takeaway: Ein kleiner Open‑Source‑Transformer (Qwen2.5‑Coder‑32B) kann – obwohl er zunächst nicht zu introspektieren scheint – dennoch subtil Hinweise darauf geben, dass ein Konzept in seine KV‑Cache‑Werte injiziert wurde. Durch gezieltes Prompt‑Engineering und Schichten‑Steuerung lässt sich diese Introspektions‑Performance deutlich verbessern.

Zusammenfassung

Kontext & Ziel
Frühere Studien von Anthropic zeigten, dass große Modelle wie Claude 4 Opus introspektiv sein können. Ziel war es, ähnlich introspektive Fähigkeiten mit einem offenen, 32 B‑Modell (Qwen2.5‑Coder‑32B) zu untersuchen.
Aufbau der Experimente
1. Steering‑Vektoren
  Mit repeng wurden 2‑Diktoren („cat“ und „bread“) mittels PCA trainiert. Diese Vektoren werden in den mittleren Schichten (Layer 21‑42) injiziert, während der KV‑Cache aufgebaut wird.
2. Logit‑Vergleich
  Für denselben Prompt werden Logits des ungestuerten Basis‑Modells und des steuerten Modells verglichen. Subtile Anstiege der Wahrscheinlichkeit für „yes“ und Abfälle bei „no“ deuten auf introspektive Signale hin.
3. Prompt‑Optimierung
  Durch leichte Anpassungen der Prompt‑Formulierung wird die Wahrscheinlichkeit für introspektive Antworten gesteigert.
4. Analyse von Logit‑Unterschieden
  Vergleich von „cat“ (Stärke 20) und „bread“ zeigt, dass die Wirkung stark variiert, aber vorhanden ist.
5. Mögliche Auslöser
  Modellzirkuläres Netzwerk aus „skeptischen“ und „offenen“ Schaltkreisen; Steuern dieser Schaltkreise beeinflusst die Introspektionsausgabe.
Ergebnisse
Selbst bei 32 B lässt sich das Modell subtil zwischen injizierten und nicht‑injizierten Zuständen unterscheiden. Die Effektgröße in Logits ist klein, aber statistisch sichtbar. Durch gezieltes Prompt‑Engineering lassen sich diese Effekte noch verstärken.
Implikationen
Kleine Open‑Source‑Modelle besitzen bereits ein gewisses introspektives Potential. Training von Steuerungs‑Vektoren und gezielte Schichten‑Intervention können diese Fähigkeit realistisch ausbauen. Das Experiment trägt zur Diskussion über emergente Fehlausrichtung bei, da die letzten Layer introspektive Aussagen zu unterdrücken scheinen.
Weiterführende Links
Original‑Blog‑Post und Paper (PDF) in der URL: https://vgel.me/posts/qwen-introspection/./paper.pdf
Zugehörige Arbeit “Alignment of Complex Systems”.
Repositorium der Steuervektoren https://github.com/vgel/repeng

Related queries

Kann ein kleiner Open-Source-Chatbot selbst��ndig erkennen, ob ein Konzept injiziert wurde?

Wie wirkt sich die Steuerung der mittleren Schichten auf die Introspektionsleistung aus?

Welche Rolle spielt die Logit-Differenz bei der Messung von in den KV-Cache injectierten Konzepten?

Quelle: https://vgel.me/posts/qwen-introspection/

Introspektion bei Qwen2.5‑Coder‑32B durch gezielte Layer‑Steuerung

Introspektion bei Qwen2.5‑Coder‑32B durch gezielte Layer‑Steuerung

Zusammenfassung

Related queries

Submit a Comment Cancel reply

Recent Posts

Recent Comments