home

Neuronale Stimulation bei LLMs: Konzeptvektoren zum Steering

Durch das additive Hinzufügen von Konzeptvektoren zu den Aktivierungen eines LLMs im Inferenzzeitpunkt kann das Verhalten oder die Persönlichkeit des Modells ohne Feintuning oder Prompt‑Engineering verändert werden – ein Verfahren, das der neurostimulation in der Neurowissenschaft entspricht.

Key Takeaway

Durch das additive Hinzufügen von Konzeptvektoren zu den Aktivierungen eines LLMs im Inferenzzeitpunkt kann das Verhalten oder die Persönlichkeit des Modells ohne Feintuning oder Prompt‑Engineering verändert werden – ein Verfahren, das der neurostimulation in der Neurowissenschaft entspricht.

Summary

  • Einführung und Motivation
    • Ziel: Verhalten oder Persönlichkeit eines LLMs ändern.
    • Traditionelle Lösungen: Prompt‑Engineering & Fine‑Tuning.
    • Neuer Ansatz: Steering (neuronale Stimulation analog zur Gehirnstimulation).
  • Vergleich mit Neurostimulation
    • Im Gehirn werden bestimmte Neuronen durch Elektroden oder Magnetfelder stimuliert, um Motorik, Emotionen oder Erinnerungen zu beeinflussen.
    • Bei LLMs kann man gezielt bestimmte Neuronen (Feature‑Knoten) im Aktivierungsraum ansteuern, um Verhalten zu modulieren, ohne Gewichtsanpassung.
  • Architektur eines LLMs
    • Autoregressive Transformer‑Modelle: Token‑für‑Token‑Generierung.
    • Stack aus Lagen: Attention‑Block → Feed‑Forward‑Block → Weitergabe an nächste Lage.
    • Zwischenlagen wird ein Activations‑Vector (hochdimensional, HZ) übertragen – der innere „Gedanken“-Zustand des Modells.
  • Lineare Repräsentation und Konzeptverläufe
    • Tokens werden zunächst in ein Embedding‑Vektor‑Format übersetzt.
    • Durch die Verarbeitung werden Konzepte als lineare Vektoren in den Aktivierungsräumen dargestellt (linear representation phenomenon).
    • Vektoren können addiert/gewichtet werden (z. B. “Rotes Auto” = Vektor(Car) + Vektor(Red)).
    • Die Richtung des Vektors ist entscheidend, nicht seine Länge; die Länge steuert lediglich die Stärke.
  • Superposition & Layer‑Spezifische Rollen
    • Konzepte sind über viele Neuronen verteilt (Superposition), nicht auf einzelne Knoten beschränkt.
    • Frühere Layer repräsentieren explizit gelesene Tokens; spätere Layer aktivieren nahe der Ausgabe.
    • Mittlere Layer enthalten abstrakte Konzepte und sind am einflussreichsten für Reasoning‑ Aufgaben.
  • Steering‑Mechanismus
    • Identifiziere einen geeigneten Konzeptvektor V für das gewünschte Verhalten (z. B. „Eiffelturm“).
    • Während der Token‑Generierung wird am Ziel‑Layer (z. B. Nachteile 15) ein Hook angelegt, der die Aktivierung X des Layers um α · V ergänzt.
    • α (Skalierungsfaktor) steuert Intensität.
    • Gewichtungen bleiben unverändert; Interaktion findet ausschließlich im Forward‑Pass statt.
  • Praktische Umsetzung mit Hugging Face
    • Schnellstart‑Script lädt ein Llama 3.1 8B Modell und führt einen Prompt aus.
    • Mit minimalem Code wird ein Hook hinzugefügt, der den Konzeptvektor einsetzt.
    • Beispiel: Modell wird „auf die Eiffelturm‑Persönlichkeit“ getrieben, sodass es sich manchmal fälschlich als Eiffelturm meint.
  • Beispielergebnis
    • Ursprüngliche Ausgabe: Ideen für E‑Commerce und Dienstleistungen.
    • Nach Steering: Inhaltlich anders, stark von Eiffelturm‑Gefühl geprägt – Demonstration der Wirkung.
  • Vorteile & Anwendungsgebiete
    • Keine erneute Training‑ oder Feinabstimmung; spart Rechenressourcen.
    • Dynamische Anpassung im Inferenzzeitpunkt.
    • Geeignet für Personalisierung, experimentelle Aufgaben, kreative Inhalte.
    • Möglichkeit, ethische oder regulatorische Anforderungen zu erfüllen, ohne Kernmodell zu verändern.
  • Abschließende Bemerkungen
    • Erfordert Identifikation geeigneter Vektoren (z. B. durch Analyse oder Wortanaloge).
    • Experimentelle Natur: Kontrolle der Intensität und Stabilität nötig.
    • Potenzielle Weiterentwicklungen: automatisierte Vektor‑Suche, adaptive Hook‑Strategien.

Quelle: YouTube-Video