home

Propose‑Solve‑Verify (PSV): Ein neuer Ansatz für Self‑Play in der Code‑Generierung

Key Takeaway

Durch die Verwendung formal verifizierter Feedback‑Signale lässt sich Self‑Play effektiv für die Schulung von Sprachmodellen beim Code‑Generieren nutzen, wobei die vorgeschlagene Propose‑Solve‑Verify‑Methodik (PSV) die Leistung bei mehreren Benchmarks signifikant steigert.

Summary

  • Zielsetzung: Unabhängiges Training von großen Sprachmodellen über Self‑Play ohne menschliche Daten, besonders im Bereich Code‑Generierung.
  • Problematik: Unit‑Test‑basierte Belohnungen sind anfällig und führen zu Fehlerpropagation.
  • Lösung: Einführung des Propose‑Solve‑Verify (PSV)-Frameworks, bei dem formale Verifikation zuverlässige Korrektheitssignale liefert.
  • Proposer: Generiert synthetische, herausfordernde Code‑Probleme, die auf Schwierigkeiten basieren.
  • Solver: Wird mittels Expert‑Iteration auf Basis der verifizierten Feedbacks trainiert.
  • Implementation: Erzeugung von PSV‑Verus, die in drei Benchmark‑Datasets getestet wurden.
  • Ergebnisse: Pass‑@1 verbessert sich bis zu 9,6‑fach im Vergleich zu reiner Inferenz und herkömmlichem Expert‑Iteration.
  • Skalierbarkeit: Leistungssteigerung korreliert mit Anzahl der generierten Fragen und Trainingsiteration.
  • Ablationsstudien: Bestätigen, dass formale Verifikation und schwierigkeit‑bewusste Problempositionierung zentrale Erfolgsfaktoren sind.

Metadaten

Autor*innen: Alex Wilf, Pranjal Aggarwal, Bryan Parno, Daniel Fried, Louis‑Philippe Morency, Paul Pu Liang, Sean Welleck.
Fachbereich: Artificial Intelligence (cs.AI).
Einreichungsdatum: 20. Dezember 2025.
Verfügbarkeit: PDF, HTML (experimentell), TeX‑Quellcode, DOI‑Link.

Quelle

Quelle: https://arxiv.org/abs/2512.18160