Qwen-Doc: Open‑Source Plattform für Langkontextuelle LLM‑Optimierung
Qwen-Doc stellt eine Open‑Source‑Plattform dar, die fortschrittliche Techniken wie Verstärkungslernen und Self‑Play nutzt, um Large Language Models für langkontekstuelle Dokumentenverarbeitung zu optimieren. Im Fokus steht die Integration von Projekten rund um das Verständnis, Parsing und intelligente Agenten für Dokumente.
Repository‑Infos
- Projektname: Qwen-Doc (Tongyi‑Zhiwen)
- Ziel: Zusammenführung von Projekten zu Dokumentenverstehen, Parsing und intelligenten Agents
- Open‑Source: Alle Modelle, Daten und Methoden sind öffentlich zugänglich
Projekte im Detail
- QwenLong‑L1 – RL‑basierte Erweiterung von Short‑Context Modellen zu langkontekstueller Reasoning, inklusive QwenLong‑L1‑32B. Erreicht State‑of‑the‑Art in DocQA‑Benchmarks.
- QwenLong‑L1.5 – Nach‑Training‑Rezept mit Synthese‑Pipeline, AEPO (Adaptive Entropy‑Controlled Policy Optimization) und Speicher‑Management‑Framework für über‑Fenster‑Operationen. Enthält das Modell QwenLong‑L1.5‑30B‑A3B.
- SPELL – Self‑Play RL‑Framework, das ein LLM in drei Rollen (Frager, Antworter, Verifikator) schaltet, um eigenständig Trainingsdaten und Belohnungen zu erzeugen. Verbessert signifikant die Langkontekstueller Fähigkeiten über 12 Modelle und 6 Benchmarks.
Neueste Entwicklungen (2025)
- 15. Dez.: Veröffentlichung von QwenLong‑L1.5 und SPELL
- 28. Mai: QwenLong‑L1‑32B‑AWQ (int4‑Quantisierung)
- 26. Mai: Offenlegung von QwenLong‑L1, Modell QwenLong‑L1‑32B und Dataset DocQA‑RL‑1.6K
Publikationen
- ArXiv‑Papers zu QwenLong‑L1, QwenLong‑L1.5 und SPELL (alle 2025)
Repository‑Statistik
⭐ 394 Stars, Forks 18, Issues 4, Contributors 3.
Fragen & Antworten
Wie funktioniert das SPELL Self‑Play‑Framework?
Das SPELL‑Framework setzt ein LLM in drei Rollen ein – Frager, Antworter und Verifikator – und nutzt Self‑Play zur generativen Erstellung von Trainingsdaten und Belohnungen. Durch kontinuierliches Feedback optimiert das System die Langkontextfähigkeit.
Wo finde ich die Trainingsdaten für QwenLong‑L1.5?
Die Trainingsdaten sind im Repository Qwen-Doc verfügbar, inklusive des Datensatzes DocQA‑RL‑1.6K.
Welche Modelle sind im QwenLong‑L1‑Projekt enthalten?
Im QwenLong‑L1‑Projekt sind die Modelle QwenLong‑L1‑32B und QwenLong‑L1‑32B‑AWQ enthalten.
