Effizienz und Latenz bei großen Sprachmodellen: Ein Überblick über vLLM und SGLang

Die Effizienz, Kosten und Latenz bei der Ausführung großer Sprachmodelle sind entscheidend für ihre praktische Nutzbarkeit. In diesem Beitrag beleuchten wir zwei Open‑Source‑Projekte – vLLM und SGLang – die sich der Optimierung von Inference-Engines verschrieben haben und zeigen, wie akademische Ideen in Open‑Source‑Betriebssysteme überführt werden können.

LLM‑Inference erklärt

Training ist rechenintensiv, aber die reale Akzeptanz hängt stark von der Inference‑Effizienz ab. Autoregressive Decodierung ist sequentiell, was Parallelismus begrenzt, und Modelle mit 10–100 Billionen Parametern erfordern komplexe Full‑Stack‑Lösungen.

Wichtige Inferenz‑Engines

vLLM

Ursprung 2023, PagedAttention‑Algorithmus, Betriebssystem‑Paging‑Techniken für feinkörniges Speicher‑Management.
Continuous Batching (von “Orca”) integriert.
Bis heute 5 × mehr Traffic und 30 × mehr Durchsatz verglichen mit Hugging‑Face.
Community: >10.000 Contributor:innen, ~2.000 PRs offen, täglich ~10 neue Issues.

SGLang

Ursprung 2023, RadixAttention (erweitert PagedAttention): speichert KV‑Cache und nutzt Präfix‑Übereinstimmungen zur Kostenreduktion.
Selbst bei deaktivierter RadixAttention bleibt die Performance stark.
Community: < halb so viele Contributor wie vLLM, ~2.000 Nutzer*innen, Backlog‑Antwortzeit 3‑5 Tage.

Akademische Herkunft & Community

Beide Projekte entspringen UC Berkeley (vLLM) bzw. Berkeley‑basierten Forschern (SGLang). Gründer: Woosuk Kwon (vLLM), Lianmin Zheng (SGLang). Zugehörige Initiativen: LMSYS.org, FastChat, Chatbot Arena (LMArena). Beitrag von Open‑Source‑Ökosystemen: Red Hat (vLLM), xAI, Skywork, Oracle, LinkedIn (SGLang). Insgesamt haben 194 Entwickler an beiden Projekten Code beigetragen.

Entwicklungs‑ & Wartungsstatus

Beide Projekte sehen eine Umstrukturierung der Core‑Developer‑Männer/innen nach dem ersten Wachstum. FastChat ist weniger aktiv, während vLLM und SGLang noch stark gewachsen sind. SGLang ist als „neuer“ Player kleiner, aber schnell iterativ.

Wichtige Publikationen & Benchmarks

„Efficient Memory Management for Large Language Model Serving with PagedAttention“ (vLLM).
„SGLang: Efficient Execution of Structured Language Model Programs“ (SGLang).
Benchmarks auf GitHub und performance‑Blogpost von LM‑Sys.

Zusammenwirken

vLLM dient als Backend im Chatbot Arena/LMArena vor offiziellem Release. SGLang nutzt Ideen von vLLM sowie eigene Optimierungen (RadixAttention). Viele Entwickler arbeiten an beiden Projekten.

Quelle: https://medium.com/@ant-oss/the-community-stories-of-vllm-and-sgl-d4675e77da6a

Effizienz und Latenz bei großen Sprachmodellen: Ein Überblick über vLLM und SGLang

Effizienz und Latenz bei großen Sprachmodellen: Ein Überblick über vLLM und SGLang

LLM‑Inference erklärt

Wichtige Inferenz‑Engines

vLLM

SGLang

Akademische Herkunft & Community

Entwicklungs‑ & Wartungsstatus

Wichtige Publikationen & Benchmarks

Zusammenwirken

Submit a Comment Cancel reply

Recent Posts

Recent Comments