home

Prompt‑Injection‑Defenses: Ein umfassender Leitfaden

Key Takeaway

Prompt‑Injection‑Defenses erfordern ein mehrstufiges Konzept aus Absorbtions‑Prävention, Pre‑Processing, Guardrails, und Überwachung, um die Wirkung eines Angriffs zu minimieren und frühzeitig zu erkennen.

Summary

  • Repo‑Ziel: Zentralisierung von praktischen und vorgeschlagenen Verteidigungsmaßnahmen gegen Prompt Injection, inklusive Links zu relevanten Publikationen und Tools.
  • Blasradius‑Reduktion – Schutz gegenüber unkontrollierten Eingaben durch Reduzierung des Einflussbereichs (Least‑Privilege, klare Trennung von Zugriffsberechtigungen).
  • Input‑Pre‑Processing – Paraphrasing, Retokenisation, SmoothLLM & Back‑Translation, Information‑Bottleneck, etc.
  • Guardrails & Overseers, Firewalls & Filters – Eingangs‑ und Ausgangs‑Guardrails, Canary‑Tokens, dynamische Action‑Guards zur Laufzeitüberwachung.
  • Taint Tracking – Nachverfolgung von fragwürdigen Datenströmen für Nachvollziehbarkeit und Isolierung.
  • Secure Threads / Dual LLM – Parallelisierung von sicheren und unsicheren Threads oder Verwendung mehrerer LLM‑Instanzen.
  • Ensemble Decisions / Mixture of Experts – Konsensbasierte Entscheidungen zur Erkennung von Anomalien.
  • Prompt Engineering / Instructional Defense – Explizite Anweisungen und Richtlinien im Prompt zur Steuerung und Sicherheitschecks.
  • Robustness & Fine‑tuning – Anpassung der Modelle an spezifische Sicherheitsanforderungen.
  • Preflight “Injection Test” – Test von potenziellen Prompts vor ihrer Verarbeitung.
  • Tools & Referenzen – Bibliotheken, Skripte und wissenschaftliche Arbeiten.
  • Papers & Kritiken – Dokumentation aktueller Forschungsergebnisse und kritischer Analysen.

Related Queries

Wie kann Input Pre‑Processing die Wirksamkeit von Prompt‑Injection reduzieren?
Welchen Zweck haben Guardrails bei der Erkennung von Prompt‑Injections?
Was verhindert ein "Preflight injection test" in diesem Projekt?

Quelle: https://github.com/tldrsec/prompt-injection-defenses