home

Die Effizienz, Kosten und Latenz bei der Ausführung großer Sprachmodelle sind entscheidend für ihre praktische Nutzbarkeit

Key Takeaway

Die Effizienz, Kosten und Latenz bei der Ausführung großer Sprachmodelle sind entscheidend für ihre praktische Nutzbarkeit, und Projekte wie vLLM und SGLang zeigen, wie akademische Ideen in open‑source‑Betriebssysteme überführt werden können, um diese Herausforderungen zu bewältigen.

Summary

  • LLM‑Inference erklärt
    • Training ist rechenintensiv, aber reale Akzeptanz hängt von Inference‑Effizienz ab (Kosten, Latenz, Durchsatz).
    • Autoregressive Decodierung ist sequentiell, was Parallelismus begrenzt, und Modelle mit 10–100 Billionen Parametern erfordern komplexe Full‑Stack‑Lösungen.
  • Wichtige Inferenz‑Engines
    • vLLM
      • Ursprung 2023, PagedAttention‑Algorithmus, Betriebssystem‑Paging‑Techniken für feinkörniges Speicher‑Management.
      • Continuous Batching (von “Orca”) integriert.
      • Bis heute 5 × mehr Traffic und 30 × mehr Durchsatz verglichen mit Hugging‑Face.
      • Community: >10.000 Contributor:innen, ~2.000 PRs offen, täglich ~10 neue Issues.
    • SGLang
      • Ursprung 2023, RadixAttention (erweitert PagedAttention): speichert KV‑Cache und nutzt Präfix‑Übereinstimmungen zur Kostenreduktion.
      • Bei deaktivierter RadixAttention bleibt Performance stark.
      • Community: < halb so viele Contributor wie vLLM, ~2.000 Nutzer*innen, Backlog‑Antwortzeit 3‑5 Tage.
  • Akademische Herkunft & Community
    • Beide Projekte entspringen UC Berkeley (vLLM) bzw. Berkeley‑basierten Forschern (SGLang).
    • Gründer: Woosuk Kwon (vLLM), Lianmin Zheng (SGLang).
    • Zugehörige Initiativen: LMSYS.org, FastChat, Chatbot Arena (LMArena).
    • Beitrag von Open‑Source‑Ökosystemen: Red Hat (vLLM), xAI, Skywork, Oracle, LinkedIn (SGLang).
    • 194 Entwickler haben an beiden Projekten Code beigetragen.
  • Entwicklungs‑ & Wartungsstatus
    • Beide Projekte sehen eine Umstrukturierung der Core‑Developer‑Männer/innen nach dem ersten Wachstum.
    • FastChat ist weniger aktiv, während vLLM und SGLang noch stark gewachsen sind.
    • SGLang ist als „neuer“ Player kleiner, aber schnell iterativ.
  • Wichtige Publikationen & Benchmarks
    • „Efficient Memory Management for Large Language Model Serving with PagedAttention“ (vLLM).
    • „SGLang: Efficient Execution of Structured Language Model Programs“ (SGLang).
    • Benchmarks auf GitHub und performance‑Blogpost von LM‑Sys.
  • Zusammenwirken
    • VLLM als Backend im Chatbot Arena/LMArena vor offiziellem Release.
    • SGLang nutzt Ideen von VLLM sowie eigene Optimierungen (RadixAttention).
    • Cross‑Contributors: Viele Entwickler arbeiten an beiden Projekten.

Quelle: https://medium.com/@ant-oss/the-community-stories-of-vllm-and-sgl-d4675e77da6a