home

Skalierte VLA‑Modelle: Vom humanoiden Ego‑Video zur doppelten Transferleistung in Robotik

Key Takeaway

Im Zeitalter großer Foundation‑Modelle entsteht durch Skalierung die Fähigkeit, Daten aus humanoiden Videos ohne aufwändige Transfertechniken in robotische Aufgaben zu überführen, was die Leistungsfähigkeit bei zuvor unerklärten Szenarien verdoppelt.

Summary

  • Emergence in LLMs & VLA‑Modellen – Wie bei großen Sprachmodellen zeigen auch Vision‑Language‑Action (VLA) Modelle emergente Fähigkeiten, sobald Modelle und Datenmengen über einen bestimmten Schwellenwert hinaus wachsen.
  • Skalierung von π0.5 – Das Modell π0.5 wird mit einer großen, heterogenen Robotendatenbasis vortrainiert und anschließend co‑fine‑tuned mit menschlichen Ego‑Videos (3D‑Handpositionen als Aktionen).
  • Methodik ohne spezifischen Transfer‑Learning‑Mechanismus – Menschliche Videos werden als reguläre Robotendaten behandelt; keine Maskierung, generative Modifikationen oder Hardware‑Anpassungen werden eingesetzt.
  • Verbesserung der Generalisierung – In vier Testszenarien (Bussing, Spice, Dresser, Eggs) steigt die Leistung der Co‑fine‑Tun‑Policy um ca. 2 × bei Szenen, die ausschließlich in menschlichen Demonstrationen vorkommen.
  • Zusammenhang Pre‑Training‑Diversität & Transfer – Der Zuwachs an Robotendaten im Pre‑Training (∼ 60 % der Datenmenge) verbessert die Fähigkeit, menschliche Daten später zu absorbieren; ohne Pre‑Training bleibt die Leistung stagnierend.
  • Latente Feature‑Alignment – TSNE‑Visualisierungen zeigen, dass bei kleineren Pre‑Training‑Daten menschliche und robotische Beispiele unterschiedliche Feature‑Verteilungs‑Cluster bilden. Mit wachsender Diversität verschmelzen die Cluster, was auf ein emergentes Alignment hinweist.
  • Folgen für die Zukunft – Das Ergebnis deutet darauf hin, dass skalierte VLA‑Modelle neue Domänen‑übergreifende Fähigkeiten entwickeln, z. B. Nutzung von leicht verfügbaren Ego‑Videos, was die Skalierung von Robotik‑Foundation‑Modellen weiter erleichtert.
  • Kooperations‑ und Rekrutierungsinformationen – Öffentliche Einladungen zur Zusammenarbeit mit Unternehmen, die Roboterdaten sammeln, sowie Hinweise auf offene Stellen im Bereich Forschung.

Related queries

Wie kann man Ego‑Videos ohne Maskierung in VLA‑Training integrieren?
Welche Auswirkungen hat Pre‑Training‑Diversität auf die Feature‑Alignment‑Qualität?
Ist die 2‑fach Steigerung bei Transferaufgaben auf π0.5 beschränkt oder reproduzierbar?

Quelle: https://www.pi.website/research/human_to_robot