Nemotron 3 Nano: Hybrid Mamba‑Transformer mit sparsamen MoE‑Schichten
Key Takeaway
Nemotron 3 Nano kombiniert hybride Mamba‑Transformer‑Architektur mit sparsamen Mixture‑of‑Experts‑Schichten, wodurch es bei gleicher Modellausführung weniger Parameter aktivieren muss, die Durchsatzrate erhöht und gleichzeitig genaue Ergebnisse liefert – besonders bei sehr langen Kontexten (bis zu 1 M Token).
Summary
- Architektur: Hybrid Mamba‑Transformer mit Grouped‑Query‑Attention (GQA) und sparsamen MoE‑Stücken (6 aktivierte Experten aus 128). 31,6 B Gesamtparameter, 3,2 B aktiv pro Vorwärtspassage.
- Pre‑Training: 25 Trd Tokens über 15 Kategorien, 2‑Phasen‑Trainings (23,5 Trd Vielfalt + 1,5 Trd Qualitätsdaten). Warmup‑Stable‑Decay Lernratenplan.
- Leistung: Mehr Genauigkeit als Nemotron 2 Nano und vergleichbare Modelle (GPT‑OSS 20B, Qwen 3 30B A3B‑Thinking‑2507). 3,3‑facher Durchsatz vs. Qwen 3, 2,2‑facher vs. GPT‑OSS bei 8 K Ein-/16 K Ausgabe. Kontextsgrößen bis 1 M Token unterstützt; übertrifft Konkurrenz in RULER‑Tests.
- Post‑Training: Supervised Fine Tuning (SFT) für Chat, Agentic und reasoning; Multi‑Environment RL (RLVR) für gleichmäßige Verbesserungen; RLHF mit GenRM zur Optimierung der Chat‑Leistung.
- Quantisierung: Post‑Training Quantisierung von BF16 auf FP8 (PTQ) erzielt höheren Durchsatz bei minimaler Genauigkeitsverluste.
- Veröffentlichung: Checkpoints (FP8, BF16, Base BF16, GenRM). Datenreihen (Common Crawl, Code‑Datasets, spezielle STEM‑Daten, SFT‑ und RL‑Datensätze).
- Ergebnisse: Bessere Accuracy auf Code, Math, Long‑Context, General Knowledge, Commonsense‑Benchmarks. RULER‑Score für 1 M Token nur bei Nemotron 3 Nano und Qwen.
- Technische Details: Einzelne H200 GPU, gemessen mit vLLM/TRT‑LLM, FP8 für Gewichte/Aktivierungen. Layer‑Muster: Mamba‑2 + MoE + Attention, mit 5‑x MoE in einigen Blöcken.
Related Queries
- Wie unterscheidet sich die MoE-Architektur von traditionellen FFN-Schichten?
- Welche Vorteile bietet die FP8-Quantisierung für große Modelle?
- Wie handhabt Nemotron 3 Nano sehr lange Kontexte von 1 M Token?
