Prompt‑Caching: Kostenreduktion und Latenz in LLM‑Systemen

Key Takeaway

Prompt‑Caching senkt die Kosten pro Eingabetoken bei OpenAI‑ und Anthropic‑APIs um bis zu zehnmal, ohne die Antworten zu replizieren. Der Preisvorteil entsteht dadurch, dass Tokens (insbesondere deren Embeddings) im GPU‑Speicher zwischen Aufrufen zwischengespeichert werden, was sowohl die Eingabekosten als auch die Zeit bis zum ersten Token reduziert.

Summary

Kostenreduktion & Latenz – Eingabetoken werden bei OpenAI und Anthropic intern zu 10 % des Normalpreises gehandelt. Experimentelle Messungen zeigen, dass die Zeit bis zum ersten Token bei langen Prompts durch Caching um bis zu 85 % sinkt.
Was wird gecacht? – Nicht die Antwort, sondern die Eingabetokens (oder deren Embeddings) werden im Speicher gehalten. Bei mehrfachen Anfragen mit denselben Tokens entstehen keine identischen Antworten, da die Modelle weiterhin stochastic generieren.

LLM‑Architektur

LLM = große mathematische Funktion; Eingabe‑Tokens → Tokenizer → Embedding → Transformer (Attention + Feedforward) → Output. Prompt‑Caching findet im Attention‑Mechanismus des Transformers statt, wo Token‑Embeddings wiederverwendet werden.

Tokenizer

Teilt Text in Tokens, z. B. „Check out ngrok.ai“ → [4383, 842, 1657, 17690, 75584]. Tokens sind zustandslos, case‑sensitive und werden immer gleich tokenisiert. Verschiedene Modelle (ChatGPT, Claude, GPT‑5) nutzen unterschiedliche Tokenizer.

Embeddings

Jedes Token erhält einen n‑dimensionalen Vektor (Embedding); initial zufällig verteilt, später optimiert. Embeddings erlauben das Messen von Ähnlichkeiten zwischen Tokens/Tokensets. Beim Training werden Embeddings angepasst, um korrekte Ausgaben zu erzeugen.

Attention

Kernschritt, bei dem das Modell das komplette Kontext‑Token‑Set wiederholt verarbeitet. Hier wird das gecachte Embedding benutzt, wodurch Speicherzugriffen reduziert werden. Reiterativ wird Ausgabe‑Token generiert, jeder neue Token wird dem Prompt hinzugefügt.

Special Tokens

End‑Token 199999 (bei GPT‑5), Start/End‑Tokens für Nachrichten. Sie bestimmen, wann das Modell stoppt oder wann ein Dialogstück endete.

Praktische Relevanz

Entwickler können die kostenfreie Nutzung von gecachten Tokens durch entsprechende API‑Parameter aktivieren. Prompt‑Caching ist besonders bei sehr langen Prompts wertvoll, da die Einsparungen exponentiell zunehmen. Die Cache‑Technologie erfordert GPU‑Speicher‑Verfügbarkeit und ist daher für große Modelle mit vielen Tokens vorteilhaft.

Weiterführende Ressourcen

Vendor‑Dokumentationen: Anthropic – https://claude.com/blog/prompt-caching, OpenAI – https://platform.openai.com/docs/guides/prompt-caching
Bildungskanäle: tiktokenizer, Andrej Karpathy‑Videos zum Tokenizer, Sebastian Raschka’s LLM‑implementation‑blog.

Related queries

Wie funktioniert Prompt Caching bei OpenAI und Anthropic?
Welche Kostenvorteile ergeben sich aus gecachten Tokens?
Gibt es Unterschiede in der Implementierung von Prompt Caching zwischen verschiedenen LLM‑Modellen?

Quelle: https://ngrok.com/blog/prompt-caching/

Prompt‑Caching: Kostenreduktion und Latenz in LLM‑Systemen

Prompt‑Caching: Kostenreduktion und Latenz in LLM‑Systemen

Key Takeaway

Summary

LLM‑Architektur

Tokenizer

Embeddings

Attention

Special Tokens

Praktische Relevanz

Weiterführende Ressourcen

Related queries

Submit a Comment Cancel reply

Recent Posts

Recent Comments