home

Apriel‑H1: Hybrid SSM‑Transformer Architecture Achieves Double Inference Throughput

Key Takeaway
Hybrid‑Architekturen, die Transformer‑Attention mit linearen State‑Space‑Modellen (SSM) wie Mamba kombinieren, ermöglichen Enterprise‑Reasoning‑Modelle (z. B. Apriel‑H1) mit linearer Inferenzkomplexität, hoher Durchsatzrate und minimaler Leistungseinbuße gegenüber reinen Transformer‑Modellen.

Summary

Paper‑Titel: Apriel‑H1: Towards Efficient Enterprise Reasoning Models (arXiv:2511.02651), 4. November 2025.

Autoren: Oleksiy Ostapenko, Luke Kumar, Raymond Li, Denis Kocetkov, Joel Lamy‑Poirier, Shruthan Radhakrishna, Soham Parikh, Shambhavi Mishra, Sebastien Paquet, Srinivas Sunkara, Valérie Bécaert, Sathwik Tejaswi Madhusudhan, Torsten Scholak.

Motivation:

  • Transformer‑Module (MHA) haben quadratische Zeit‑ und Speicherkomplexität.
  • Caching von Key‑Value‑States bei der Inferenz limitiert Durchsatz und Skalierbarkeit, was für agentische Aufgaben, lange Kontexte und hochladende Deployments kritisch ist.

Lösung:

  • Einführung der Apriel‑H1‑Familie: hybride LLMs, deren 15‑B‑Modellgröße die Kombination von MHA‑Attention und SSM‑Sequenz‑Mixern (Mamba‑Blöcke) nutzt.
  • Hybrid‑Modell entsteht durch inkrementelles Distilling eines vortrainierten Reasoning‑Transformers (Apriel‑Nemotron‑15B‑Thinker).
  • Beim Distilling werden schrittweise weniger kritische Attention‑Schichten durch lineare Mamba‑Blöcke ersetzt.

Variante‑Spektrum:

  • Mehrere Apriel‑H1‑15B‑Thinker‑Varianten mit unterschiedlichen SSM‑to‑MHA‑Verhältnissen.
  • Analyse der Leistungsdegradation, wenn mehr Mamba‑Layer MHA ersetzen.

Optimierte Variante:

  • 30/50‑Hybrid‑Variante (vermutlich 30 % MSH‑, 50 % MHA‑Blöcke) – fine‑tuned auf ein supervised Dataset von Reasoning‑Traces.
  • Erreicht > 2× höhere Inferenzdurchsatzrate im vLLM‑Umfeld, mit minimalem Qualitätsverlust.

Schlussfolgerungen:

  • Distilled hybrid SSM‑Transformer‑Architekturen bieten signifikante Effizienzgewinne ohne nennenswerte Qualitätsverluste.
  • Praktische Einsatzmöglichkeiten vor allem in Enterprise‑Umgebungen mit hoher Anfragenlast und langen Kontexten.

Technische Highlights:

  • Lineare Inferenzkomplexität durch rekurrente Berechnung mit fester Speichergröße in SSM‑Blöcken.
  • Konstanter Speicherverbrauch, unabhängig von der Sequenzlänge.

Relevante Themenbereiche:

  • Machine Learning (cs.LG)
  • Artificial Intelligence (cs.AI)

Related Queries

Wie kombiniert Apriel‑H1 Transformer‑Attention mit State‑Space‑Modellen?

Welche Vorteile bietet der 30/50‑Hybrid‑Apriel‑H1 im Vergleich zum reinen Transformer?

Wie wirkt sich das Distilling‑Verfahren auf die Leistungsdegradation von Mamba‑Layern aus?

Quelle: https://arxiv.org/abs/2511.02651