Effizienz und Latenz bei großen Sprachmodellen: Ein Überblick über vLLM und SGLang
Die Effizienz, Kosten und Latenz bei der Ausführung großer Sprachmodelle sind entscheidend für ihre praktische Nutzbarkeit. In diesem Beitrag beleuchten wir zwei Open‑Source‑Projekte – vLLM und SGLang – die sich der Optimierung von Inference-Engines verschrieben haben und zeigen, wie akademische Ideen in Open‑Source‑Betriebssysteme überführt werden können.
LLM‑Inference erklärt
Training ist rechenintensiv, aber die reale Akzeptanz hängt stark von der Inference‑Effizienz ab. Autoregressive Decodierung ist sequentiell, was Parallelismus begrenzt, und Modelle mit 10–100 Billionen Parametern erfordern komplexe Full‑Stack‑Lösungen.
Wichtige Inferenz‑Engines
vLLM
- Ursprung 2023, PagedAttention‑Algorithmus, Betriebssystem‑Paging‑Techniken für feinkörniges Speicher‑Management.
- Continuous Batching (von “Orca”) integriert.
- Bis heute 5 × mehr Traffic und 30 × mehr Durchsatz verglichen mit Hugging‑Face.
- Community: >10.000 Contributor:innen, ~2.000 PRs offen, täglich ~10 neue Issues.
SGLang
- Ursprung 2023, RadixAttention (erweitert PagedAttention): speichert KV‑Cache und nutzt Präfix‑Übereinstimmungen zur Kostenreduktion.
- Selbst bei deaktivierter RadixAttention bleibt die Performance stark.
- Community: < halb so viele Contributor wie vLLM, ~2.000 Nutzer*innen, Backlog‑Antwortzeit 3‑5 Tage.
Akademische Herkunft & Community
Beide Projekte entspringen UC Berkeley (vLLM) bzw. Berkeley‑basierten Forschern (SGLang). Gründer: Woosuk Kwon (vLLM), Lianmin Zheng (SGLang). Zugehörige Initiativen: LMSYS.org, FastChat, Chatbot Arena (LMArena). Beitrag von Open‑Source‑Ökosystemen: Red Hat (vLLM), xAI, Skywork, Oracle, LinkedIn (SGLang). Insgesamt haben 194 Entwickler an beiden Projekten Code beigetragen.
Entwicklungs‑ & Wartungsstatus
Beide Projekte sehen eine Umstrukturierung der Core‑Developer‑Männer/innen nach dem ersten Wachstum. FastChat ist weniger aktiv, während vLLM und SGLang noch stark gewachsen sind. SGLang ist als „neuer“ Player kleiner, aber schnell iterativ.
Wichtige Publikationen & Benchmarks
- „Efficient Memory Management for Large Language Model Serving with PagedAttention“ (vLLM).
- „SGLang: Efficient Execution of Structured Language Model Programs“ (SGLang).
- Benchmarks auf GitHub und performance‑Blogpost von LM‑Sys.
Zusammenwirken
vLLM dient als Backend im Chatbot Arena/LMArena vor offiziellem Release. SGLang nutzt Ideen von vLLM sowie eigene Optimierungen (RadixAttention). Viele Entwickler arbeiten an beiden Projekten.
Quelle: https://medium.com/@ant-oss/the-community-stories-of-vllm-and-sgl-d4675e77da6a
