Introspektion bei Qwen2.5‑Coder‑32B durch gezielte Layer‑Steuerung
Key Takeaway: Ein kleiner Open‑Source‑Transformer (Qwen2.5‑Coder‑32B) kann – obwohl er zunächst nicht zu introspektieren scheint – dennoch subtil Hinweise darauf geben, dass ein Konzept in seine KV‑Cache‑Werte injiziert wurde. Durch gezieltes Prompt‑Engineering und Schichten‑Steuerung lässt sich diese Introspektions‑Performance deutlich verbessern.
Zusammenfassung
- Kontext & Ziel
Frühere Studien von Anthropic zeigten, dass große Modelle wie Claude 4 Opus introspektiv sein können. Ziel war es, ähnlich introspektive Fähigkeiten mit einem offenen, 32 B‑Modell (Qwen2.5‑Coder‑32B) zu untersuchen. - Aufbau der Experimente
- Steering‑Vektoren
Mitrepengwurden 2‑Diktoren („cat“ und „bread“) mittels PCA trainiert. Diese Vektoren werden in den mittleren Schichten (Layer 21‑42) injiziert, während der KV‑Cache aufgebaut wird. - Logit‑Vergleich
Für denselben Prompt werden Logits des ungestuerten Basis‑Modells und des steuerten Modells verglichen. Subtile Anstiege der Wahrscheinlichkeit für „yes“ und Abfälle bei „no“ deuten auf introspektive Signale hin. - Prompt‑Optimierung
Durch leichte Anpassungen der Prompt‑Formulierung wird die Wahrscheinlichkeit für introspektive Antworten gesteigert. - Analyse von Logit‑Unterschieden
Vergleich von „cat“ (Stärke 20) und „bread“ zeigt, dass die Wirkung stark variiert, aber vorhanden ist. - Mögliche Auslöser
Modellzirkuläres Netzwerk aus „skeptischen“ und „offenen“ Schaltkreisen; Steuern dieser Schaltkreise beeinflusst die Introspektionsausgabe.
- Steering‑Vektoren
- Ergebnisse
Selbst bei 32 B lässt sich das Modell subtil zwischen injizierten und nicht‑injizierten Zuständen unterscheiden. Die Effektgröße in Logits ist klein, aber statistisch sichtbar. Durch gezieltes Prompt‑Engineering lassen sich diese Effekte noch verstärken. - Implikationen
Kleine Open‑Source‑Modelle besitzen bereits ein gewisses introspektives Potential. Training von Steuerungs‑Vektoren und gezielte Schichten‑Intervention können diese Fähigkeit realistisch ausbauen. Das Experiment trägt zur Diskussion über emergente Fehlausrichtung bei, da die letzten Layer introspektive Aussagen zu unterdrücken scheinen. - Weiterführende Links
Original‑Blog‑Post und Paper (PDF) in der URL: https://vgel.me/posts/qwen-introspection/./paper.pdf
Zugehörige Arbeit “Alignment of Complex Systems”.
Repositorium der Steuervektoren https://github.com/vgel/repeng
Related queries
Kann ein kleiner Open-Source-Chatbot selbst��ndig erkennen, ob ein Konzept injiziert wurde?
Wie wirkt sich die Steuerung der mittleren Schichten auf die Introspektionsleistung aus?
Welche Rolle spielt die Logit-Differenz bei der Messung von in den KV-Cache injectierten Konzepten?
