home

Introspektion bei Qwen2.5‑Coder‑32B durch gezielte Layer‑Steuerung

Key Takeaway: Ein kleiner Open‑Source‑Transformer (Qwen2.5‑Coder‑32B) kann – obwohl er zunächst nicht zu introspektieren scheint – dennoch subtil Hinweise darauf geben, dass ein Konzept in seine KV‑Cache‑Werte injiziert wurde. Durch gezieltes Prompt‑Engineering und Schichten‑Steuerung lässt sich diese Introspektions‑Performance deutlich verbessern.

Zusammenfassung

  • Kontext & Ziel
    Frühere Studien von Anthropic zeigten, dass große Modelle wie Claude 4 Opus introspektiv sein können. Ziel war es, ähnlich introspektive Fähigkeiten mit einem offenen, 32 B‑Modell (Qwen2.5‑Coder‑32B) zu untersuchen.
  • Aufbau der Experimente
    1. Steering‑Vektoren
      Mit repeng wurden 2‑Diktoren („cat“ und „bread“) mittels PCA trainiert. Diese Vektoren werden in den mittleren Schichten (Layer 21‑42) injiziert, während der KV‑Cache aufgebaut wird.
    2. Logit‑Vergleich
      Für denselben Prompt werden Logits des ungestuerten Basis‑Modells und des steuerten Modells verglichen. Subtile Anstiege der Wahrscheinlichkeit für „yes“ und Abfälle bei „no“ deuten auf introspektive Signale hin.
    3. Prompt‑Optimierung
      Durch leichte Anpassungen der Prompt‑Formulierung wird die Wahrscheinlichkeit für introspektive Antworten gesteigert.
    4. Analyse von Logit‑Unterschieden
      Vergleich von „cat“ (Stärke 20) und „bread“ zeigt, dass die Wirkung stark variiert, aber vorhanden ist.
    5. Mögliche Auslöser
      Modellzirkuläres Netzwerk aus „skeptischen“ und „offenen“ Schaltkreisen; Steuern dieser Schaltkreise beeinflusst die Introspektionsausgabe.
  • Ergebnisse
    Selbst bei 32 B lässt sich das Modell subtil zwischen injizierten und nicht‑injizierten Zuständen unterscheiden. Die Effektgröße in Logits ist klein, aber statistisch sichtbar. Durch gezieltes Prompt‑Engineering lassen sich diese Effekte noch verstärken.
  • Implikationen
    Kleine Open‑Source‑Modelle besitzen bereits ein gewisses introspektives Potential. Training von Steuerungs‑Vektoren und gezielte Schichten‑Intervention können diese Fähigkeit realistisch ausbauen. Das Experiment trägt zur Diskussion über emergente Fehlausrichtung bei, da die letzten Layer introspektive Aussagen zu unterdrücken scheinen.
  • Weiterführende Links
    Original‑Blog‑Post und Paper (PDF) in der URL: https://vgel.me/posts/qwen-introspection/./paper.pdf
    Zugehörige Arbeit “Alignment of Complex Systems”.
    Repositorium der Steuervektoren https://github.com/vgel/repeng

Related queries

Kann ein kleiner Open-Source-Chatbot selbst��ndig erkennen, ob ein Konzept injiziert wurde?
Wie wirkt sich die Steuerung der mittleren Schichten auf die Introspektionsleistung aus?
Welche Rolle spielt die Logit-Differenz bei der Messung von in den KV-Cache injectierten Konzepten?

Quelle: https://vgel.me/posts/qwen-introspection/