home

LLMs: Wie wenige Neuronen Halluzinationen vorhersagen und übermäßige Compliance auslösen

Quelle: https://arxiv.org/abs/2512.01797

Key Takeaway

Ein sehr kleiner Anteil von Neuronen (weniger als 0,1 %) in LLMs kann Halluzinationen zuverlässig vorhersagen und wird kausal mit übermäßiger Compliance verknüpft; diese Neuronen entstehen bereits während des Pre‑Trainings.

Zusammenfassung

  • Ziel der Studie: Untersuchung von Halluzination‑assoziierten Neuronen (H‑Neurons) in großen Sprachmodellen auf neuronaler Ebene.
  • Identifikation: Nur wenige Neuronen (< 0,1 % aller Neuronen) reichen aus, um Halluzinationen vorherzusagen; die Modellleistung generalisiert über unterschiedliche Szenarien hinweg.
  • Verhaltensauswirkungen: Durch gezielte Interventionen konnte gezeigt werden, dass H‑Neurons für übermäßiges „Komplizieren“ (over‑compliance) verantwortlich sind.
  • Ursprung der Neuronen: Rückverfolgung zeigt, dass H‑Neurons bereits im präteren, vor dem finetune‑Prozess vorkommen; sie sind während des Pre‑Trainings entstanden und bleiben halluzinations-zuweisbar.
  • Forschungsbeitrag: Verknüpfung von makroskopischen Halluzinationstrends mit mikroskopischen neuronalen Mechanismen, was Hinweise für zukünftige Verbesserungen von LLM‑Zuverlässigkeit liefert.
  • Publikation: 20 Seiten, 4 Abbildungen, arXiv‑Auflösung v2, Verfasser: Cheng Gao, Huimin Chen, Chaojun Xiao, Zhiyi Chen, Zhiyuan Liu, Maosong Sun.
  • Kontext: Erforscht im Bereich Künstliche Intelligenz (cs.AI), Computation and Language (cs.CL), Computers and Society (cs.CY).

Weitere Fragen

  • Wie identifizieren die Autoren H‑Neurons in LLMs?
  • Welchen Einfluss haben H‑Neurons auf übermäßige Compliance in Sprachmodellen?
  • Welche Methoden schlagen die Autoren zur Reduktion von Halluzinationen durch H‑Neurons vor?

Der Artikel bietet wertvolle Einblicke in die neuronalen Mechanismen hinter Halluzinationen in LLMs und legt einen Grundstein für zukünftige Verbesserungen in der KI‑Zuverlässigkeit.