Tilus: Effizientes Low‑Precision‑Rechnen für LLMs auf GPGPU
Tilus präsentiert ein domänenspezifisches Sprachframework, das durch ein thread‑block‑orientiertes Modell, eine hierarchische Speicherarchitektur und ein neuartiges algebraisches Layout die Effizienz von Low‑Precision‑Rechnungen auf GPGPUs maximiert, wobei beliebige Bit‑Breiten von 1 bis 8 Bit unterstützt werden und damit weitreichende Leistungsverbesserungen gegenüber bestehenden Compilern und handoptimierten Kernen bieten.
Key Takeaway
Tilus präsentiert ein domänenspezifisches Sprachframework, das durch ein thread‑block‑orientiertes Modell, eine hierarchische Speicherarchitektur und ein neuartiges algebraisches Layout die Effizienz von Low‑Precision‑Rechnungen auf GPGPUs maximiert, wobei beliebige Bit‑Breiten von 1 bis 8 Bit unterstützt werden und damit weitreichende Leistungsverbesserungen gegenüber bestehenden Compilern und handoptimierten Kernen bieten.
Summary
- Herausforderung
- Large Language Models (LLMs) benötigen große Rechenressourcen, insbesondere Speicher‑Bandbreite und Durchsatz.
- Low‑Precision‑Berechnungen senken Aufwand und Bandbreite, jedoch beschränken bestehende Low‑Precision‑Kerne sich auf Potenz‑von‑Zwei‑Bit‑Breiten und führen zu suboptimalen Performance‑Werten, weil hoch‑abstrakte GPU‑Programmiermodelle wichtige Optimierungen (Register‑Verwaltung, optimierte Speicherzugriffe) blockieren.
- Tilus‑Lösung
- Domain‑Specific Language (DSL) für GPGPU‑Rechnen, das Low‑Precision‑Datentypen mit beliebigen Bit‑Breiten (1–8 Bit) ohne Einschränkung unterstützt.
- Thread‑Block‑Level‑Programmierungsmodell, das eine engere Kopplung zwischen Programmstruktur und Hardware‑Block‑Level‑Execution ermöglicht.
- Hierarchischer Speicherraum (z. B. globale, gemeinsame, lokale Speicher) mit Optimierungen für Low‑Precision‑Operationen.
- Innovative algebraische Layout‑System zur effizienten Datenorganisation und –zugriff.
- Erweiterter Compiler, der automatisch Vektorisierung und Instruktionsauswahl durchführt, um optimal auf aktuelle GPU‑Architekturen zu optimieren.
- Ergebnisse
- Umfangreiche Experimentreihe zeigt, dass Tilus alle Low‑Precision‑Datentypen von 1 bis 8 Bit effizient verarbeitet.
- Performance‑Verbesserung gegenüber:
- Triton: 1,75 ×
- Ladder: 2,61 ×
- QuantLLM (handoptimierter Kernel): 1,29 ×
- Marlin (handoptimierter Kernel): 1,03 ×
- Diese Erfolge deuten darauf hin, dass Tilus in Szenarien mit hohen Bandbreiten- und Durchsatzanforderungen signifikante Einsparungen ermöglicht.
- Open‑Source & Community
- Tilus-Codebasis veröffentlicht auf GitHub: https://github.com/NVIDIA/tilus.
- Verwendet von Forschern, die Low‑Precision‑Rechenaufgaben optimieren wollen.
- Kontext & Referenzen
- Eingebettet in die aktuellen Forschungsarbeiten zu Low‑Precision‑Quantisierung, Adaptive Code‑Optimierung (z. B. Chameleon, eXmY) und GPU‑Architektur (SIMT Core, GPGPU‑Compiler).
- Publiziert auf der 31. ACM International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS ’26).
- Quelle
Related queries
- Wie unterstützt Tilus Low‑Precision‑Daten mit beliebiger Bit‑Breite in GPGPU‑Programmen?
- Welche Performance‑Gewinne erzielt Tilus im Vergleich zu Triton und Ladder bei 8‑Bit‑Operationen?
- In welcher Weise kann Tilus die Effizienz von LLM‑Inference-Aufgaben verbessern?
