LoPA (Lookahead Parallel Decoding) ermöglicht bei Diffusions‑Large‑Language‑Models (dLLMs) bis zu 10,1 Tokens pro Vorwärtspass ohne Qualitätsverlust, was die Parallelisierungskapazität weit über die bisherigen 1–3 Tokens pro Vorwärtspass hinaus steigert.
Key Takeaway
LoPA (Lookahead Parallel Decoding) ermöglicht bei Diffusions‑Large‑Language‑Models (dLLMs) bis zu 10,1 Tokens pro Vorwärtspass ohne Qualitätsverlust, was die Parallelisierungskapazität weit über die bisherigen 1–3 Tokens pro Vorwärtspass hinaus steigert.
Summary
Konzept
- LoPA ist ein trainingsfreier, plug‑and‑play-Algorithmus, der im Gegensatz zu herkömmlichen Confidence‑Driven‑Sampling‑Ansätzen mehrere Token‑Füll‑Sequenzen (TFOs) gleichzeitig exploriert.
Methodik
- Durch das gleichzeitige Bewerten von “Anchor”‑ und “Lookahead“-Branches in einem einzigen Forward‑Pass wird der optimale Pfad für maximale zukünftige Parallelität gewählt.
