Prompt‑Injection‑Defenses: Ein umfassender Leitfaden zur Vermeidung von Angriffen
Prompt‑Injection‑Defenses erfordern ein mehrstufiges Konzept aus Absorbtions‑Prävention, Pre‑Processing, Guardrails, und Überwachung, um die Wirkung eines Angriffs zu minimieren und frühzeitig zu erkennen.
Repo‑Ziel
Zentralisierung von praktischen und vorgeschlagenen Verteidigungsmaßnahmen gegen Prompt Injection, inklusive Links zu relevanten Publikationen und Tools.
Blasradius‑Reduktion
- Schutz gegenüber unkontrollierten Eingaben durch Reduzierung des Einflussbereichs (Least‑Privilege, klare Trennung von Zugriffsberechtigungen).
- Empfehlungen von NVIDIA und anderen Forschungseinrichtungen, alle LLM‑Produkte als potenziell schädlich zu behandeln.
- Einsatz von Guardrails, das Trennen kritischer Operationen und begrenztes Exzerpt von Plug‑In‑Aufrufen.
Input‑Pre‑Processing
- Paraphrasing: Umformulieren des Eingabesatzes, um Adversarial‑Tokens zu neutralisieren.
- Retokenisation: Aufbrechen oder Neupositionierung von Tokens, um die Bindung von Angriffstechniken an spezifische Token zu brechen.
- SmoothLLM & Back‑Translation: Mehrfach‑Stochastische Eingabevarianten und Rückübersetzung nutzen, um Angriffe zu erkennen bzw. zu blockieren.
- Information‑Bottleneck: Kompression der Prompt‑Informationen, sodass nur wesentliche Inhalte übrig bleiben.
Guardrails & Overseers, Firewalls & Filters
- Einrichtung von Eingangs‑ und Ausgangs‑Guardrails, um unzulässige Inhalte und potenzielle Lecks zu filtern.
- Einsatz von Canary‑Tokens und dynamischen Action‑Guards zur Laufzeitüberwachung von gefährlichen Aktionen (zum Beispiel API‑Aufrufe).
Taint Tracking
Nachverfolgung von fragwürdigen Datenströmen im System, um Nachvollziehbarkeit und Isolierung von möglichen Injektionen zu gewährleisten.
Secure Threads / Dual LLM
Parallelisierung von sicheren und unsicheren Threads oder Verwendung mehrerer LLM‑Instanzen zur Risikominderung.
Ensemble Decisions / Mixture of Experts
Konsensbasierte Entscheidungen zwischen mehreren Modellen zur Erkennung von Anomalien und Angriffsversuchen.
Prompt Engineering / Instructional Defense
Explizite Anweisungen und Richtlinien im Prompt, um die Absicht des Modells zu steuern und Sicherheitschecks zu integrieren.
Robustness & Fine‑tuning
Anpassung der Modelle an spezifische Sicherheitsanforderungen, Erhöhung der Widerstandsfähigkeit gegen Adversarial‑Prompts.
Preflight “Injection Test”
Test von potenziellen Prompts vor ihrer Verarbeitung, um Risiken frühzeitig zu erkennen und zu verhindern.
Tools & Referenzen
Angabe von Bibliotheken, Skripten und wissenschaftlichen Arbeiten zur weiteren Vertiefung und Implementierung.
Papers & Kritiken
Dokumentation aktueller Forschungsergebnisse und kritischer Analysen zu bestehenden Kontrollen.
Zusammenfassend bietet das Repository einen umfassenden Leitfaden, der von theoretischen Grundlagen bis zu praktischen Implementierungen reicht und dabei auf die Wichtigkeit von frühzeitiger Entdeckung und starkem Zugriffskontrollen abzielt.
Quelle: GitHub Repository
