Prompt‑Caching: Kostenreduktion und Latenz in LLM‑Systemen
Key Takeaway
Prompt‑Caching senkt die Kosten pro Eingabetoken bei OpenAI‑ und Anthropic‑APIs um bis zu zehnmal, ohne die Antworten zu replizieren. Der Preisvorteil entsteht dadurch, dass Tokens (insbesondere deren Embeddings) im GPU‑Speicher zwischen Aufrufen zwischengespeichert werden, was sowohl die Eingabekosten als auch die Zeit bis zum ersten Token reduziert.
Summary
- Kostenreduktion & Latenz – Eingabetoken werden bei OpenAI und Anthropic intern zu 10 % des Normalpreises gehandelt. Experimentelle Messungen zeigen, dass die Zeit bis zum ersten Token bei langen Prompts durch Caching um bis zu 85 % sinkt.
- Was wird gecacht? – Nicht die Antwort, sondern die Eingabetokens (oder deren Embeddings) werden im Speicher gehalten. Bei mehrfachen Anfragen mit denselben Tokens entstehen keine identischen Antworten, da die Modelle weiterhin stochastic generieren.
LLM‑Architektur
LLM = große mathematische Funktion; Eingabe‑Tokens → Tokenizer → Embedding → Transformer (Attention + Feedforward) → Output. Prompt‑Caching findet im Attention‑Mechanismus des Transformers statt, wo Token‑Embeddings wiederverwendet werden.
Tokenizer
Teilt Text in Tokens, z. B. „Check out ngrok.ai“ → [4383, 842, 1657, 17690, 75584]. Tokens sind zustandslos, case‑sensitive und werden immer gleich tokenisiert. Verschiedene Modelle (ChatGPT, Claude, GPT‑5) nutzen unterschiedliche Tokenizer.
Embeddings
Jedes Token erhält einen n‑dimensionalen Vektor (Embedding); initial zufällig verteilt, später optimiert. Embeddings erlauben das Messen von Ähnlichkeiten zwischen Tokens/Tokensets. Beim Training werden Embeddings angepasst, um korrekte Ausgaben zu erzeugen.
Attention
Kernschritt, bei dem das Modell das komplette Kontext‑Token‑Set wiederholt verarbeitet. Hier wird das gecachte Embedding benutzt, wodurch Speicherzugriffen reduziert werden. Reiterativ wird Ausgabe‑Token generiert, jeder neue Token wird dem Prompt hinzugefügt.
Special Tokens
End‑Token 199999 (bei GPT‑5), Start/End‑Tokens für Nachrichten. Sie bestimmen, wann das Modell stoppt oder wann ein Dialogstück endete.
Praktische Relevanz
Entwickler können die kostenfreie Nutzung von gecachten Tokens durch entsprechende API‑Parameter aktivieren. Prompt‑Caching ist besonders bei sehr langen Prompts wertvoll, da die Einsparungen exponentiell zunehmen. Die Cache‑Technologie erfordert GPU‑Speicher‑Verfügbarkeit und ist daher für große Modelle mit vielen Tokens vorteilhaft.
Weiterführende Ressourcen
- Vendor‑Dokumentationen: Anthropic – https://claude.com/blog/prompt-caching, OpenAI – https://platform.openai.com/docs/guides/prompt-caching
- Bildungskanäle: tiktokenizer, Andrej Karpathy‑Videos zum Tokenizer, Sebastian Raschka’s LLM‑implementation‑blog.
Related queries
- Wie funktioniert Prompt Caching bei OpenAI und Anthropic?
- Welche Kostenvorteile ergeben sich aus gecachten Tokens?
- Gibt es Unterschiede in der Implementierung von Prompt Caching zwischen verschiedenen LLM‑Modellen?
