Prompt‑Caching: Kostenreduktion und Latenz bei OpenAI und Anthropic
Prompt‑Caching reduziert die Kosten pro Eingabetoken bei OpenAI‑ und Anthropic‑APIs bis zu zehnmal, ohne die Antworten zu replizieren. Die Technik speichert die Token‑Embeddings im GPU‑Speicher und verringert sowohl die Eingabekosten als auch die Zeit bis zum ersten Token.
Wichtigste Erkenntnisse
- Kostenreduktion & Latenz – Eingabetoken werden intern zu 10 % des Normalpreises gehandelt und die Zeit bis zum ersten Token kann um bis zu 85 % sinken.
- Cache‑Inhalte – Es werden nicht die Antworten, sondern die Eingabetokens bzw. deren Embeddings zwischengespeichert.
- LLM‑Architektur – Tokenizer, Embedding und Transformer‑Attention nutzen das gecachte Embedding.
- Praktische Relevanz – Entwicklern ermöglicht Prompt‑Caching kostengünstigen Einsatz bei langen Prompts.
Weiterführende Ressourcen
- Vendor‑Dokumentationen: Anthropic – Prompt‑Caching, OpenAI – Prompt‑Caching
- Bildungskanäle: tiktokenizer, Andrej Karpathy‑Videos, Sebastian Raschka’s LLM‑implementation‑blog
Quelle: ngrok.com Blog – Prompt‑Caching
