Neuronale Stimulation bei LLMs: Konzeptvektoren zum Steering

Durch das additive Hinzufügen von Konzeptvektoren zu den Aktivierungen eines LLMs im Inferenzzeitpunkt kann das Verhalten oder die Persönlichkeit des Modells ohne Feintuning oder Prompt‑Engineering verändert werden – ein Verfahren, das der neurostimulation in der Neurowissenschaft entspricht.

Key Takeaway

Summary

Einführung und Motivation
- Ziel: Verhalten oder Persönlichkeit eines LLMs ändern.
- Traditionelle Lösungen: Prompt‑Engineering & Fine‑Tuning.
- Neuer Ansatz: Steering (neuronale Stimulation analog zur Gehirnstimulation).
Vergleich mit Neurostimulation
- Im Gehirn werden bestimmte Neuronen durch Elektroden oder Magnetfelder stimuliert, um Motorik, Emotionen oder Erinnerungen zu beeinflussen.
- Bei LLMs kann man gezielt bestimmte Neuronen (Feature‑Knoten) im Aktivierungsraum ansteuern, um Verhalten zu modulieren, ohne Gewichtsanpassung.
Architektur eines LLMs
- Autoregressive Transformer‑Modelle: Token‑für‑Token‑Generierung.
- Stack aus Lagen: Attention‑Block → Feed‑Forward‑Block → Weitergabe an nächste Lage.
- Zwischenlagen wird ein Activations‑Vector (hochdimensional, HZ) übertragen – der innere „Gedanken“-Zustand des Modells.
Lineare Repräsentation und Konzeptverläufe
- Tokens werden zunächst in ein Embedding‑Vektor‑Format übersetzt.
- Durch die Verarbeitung werden Konzepte als lineare Vektoren in den Aktivierungsräumen dargestellt (linear representation phenomenon).
- Vektoren können addiert/gewichtet werden (z. B. “Rotes Auto” = Vektor(Car) + Vektor(Red)).
- Die Richtung des Vektors ist entscheidend, nicht seine Länge; die Länge steuert lediglich die Stärke.
Superposition & Layer‑Spezifische Rollen
- Konzepte sind über viele Neuronen verteilt (Superposition), nicht auf einzelne Knoten beschränkt.
- Frühere Layer repräsentieren explizit gelesene Tokens; spätere Layer aktivieren nahe der Ausgabe.
- Mittlere Layer enthalten abstrakte Konzepte und sind am einflussreichsten für Reasoning‑ Aufgaben.
Steering‑Mechanismus
- Identifiziere einen geeigneten Konzeptvektor V für das gewünschte Verhalten (z. B. „Eiffelturm“).
- Während der Token‑Generierung wird am Ziel‑Layer (z. B. Nachteile 15) ein Hook angelegt, der die Aktivierung X des Layers um α · V ergänzt.
- α (Skalierungsfaktor) steuert Intensität.
- Gewichtungen bleiben unverändert; Interaktion findet ausschließlich im Forward‑Pass statt.
Praktische Umsetzung mit Hugging Face
- Schnellstart‑Script lädt ein Llama 3.1 8B Modell und führt einen Prompt aus.
- Mit minimalem Code wird ein Hook hinzugefügt, der den Konzeptvektor einsetzt.
- Beispiel: Modell wird „auf die Eiffelturm‑Persönlichkeit“ getrieben, sodass es sich manchmal fälschlich als Eiffelturm meint.
Beispielergebnis
- Ursprüngliche Ausgabe: Ideen für E‑Commerce und Dienstleistungen.
- Nach Steering: Inhaltlich anders, stark von Eiffelturm‑Gefühl geprägt – Demonstration der Wirkung.
Vorteile & Anwendungsgebiete
- Keine erneute Training‑ oder Feinabstimmung; spart Rechenressourcen.
- Dynamische Anpassung im Inferenzzeitpunkt.
- Geeignet für Personalisierung, experimentelle Aufgaben, kreative Inhalte.
- Möglichkeit, ethische oder regulatorische Anforderungen zu erfüllen, ohne Kernmodell zu verändern.
Abschließende Bemerkungen
- Erfordert Identifikation geeigneter Vektoren (z. B. durch Analyse oder Wortanaloge).
- Experimentelle Natur: Kontrolle der Intensität und Stabilität nötig.
- Potenzielle Weiterentwicklungen: automatisierte Vektor‑Suche, adaptive Hook‑Strategien.

Quelle: YouTube-Video

Neuronale Stimulation bei LLMs: Konzeptvektoren zum Steering

Neuronale Stimulation bei LLMs: Konzeptvektoren zum Steering

Key Takeaway

Summary

Submit a Comment Cancel reply

Recent Posts

Recent Comments