VGGT rekonstruiert 3D-Szenen in nur einer Sekunde – und steht kurz davor, Industrien zu revolutionieren

Von
CTOL Editors - Ken
6 Minuten Lesezeit

VGGT kann 3D-Szenen in einer einzigen Sekunde rekonstruieren – und wird Industrien transformieren

In der schnelllebigen Welt der Computer Vision bahnt sich leise eine Revolution an. Während sich die meisten Schlagzeilen auf generative KI konzentrieren, die Bilder aus Textvorgaben erstellt, hat ein anderer technologischer Durchbruch soeben die höchste Auszeichnung der Computer-Vision-Community erhalten – und könnte weitaus unmittelbarere Auswirkungen auf die reale Welt haben.

Der Visual Geometry Grounded Transformer gewann kürzlich den Best Paper Award auf der CVPR 2025 und stach damit unter über 13.000 Einreichungen auf der renommiertesten Konferenz der Computer Vision hervor. Was macht diese Technologie so besonders? VGGT kann ganze 3D-Szenen aus gewöhnlichen Fotos in weniger als einer Sekunde rekonstruieren – eine Aufgabe, die traditionell komplexe Algorithmen erforderte, die Minuten oder sogar Stunden liefen.

Von Stunden zu Sekunden: Das Ende einer Ära in der 3D-Vision

Jahrzehntelang folgte die Rekonstruktion von 3D-Szenen aus 2D-Bildern einem bewährten Schema. Ingenieure nutzten einen akribischen Prozess namens „Structure from Motion“, gefolgt von Multi-View-Stereo-Algorithmen, die in Optimierungstechniken wie dem „Bundle Adjustment“ kulminierten. Diese Pipeline hat alles von den 3D-Modellen von Google Earth bis zu visuellen Effekten in Hollywood angetrieben – jedoch auf Kosten erheblicher Rechenzeit.

„VGGT stellt eine Abkehr von traditionellen Geometrie-Pipelines dar“, erklärt Elena, eine Computer-Vision-Forscherin, die nicht an dem Projekt beteiligt war. „Was früher mehrere spezialisierte Algorithmen erforderte, kann jetzt in einem einzigen Vorwärtsdurchlauf durch ein neuronales Netzwerk erreicht werden.“

Die Zahlen sprechen eine deutliche Sprache. VGGT verarbeitet 100 Bilder in etwa 2 Sekunden auf einer einzigen GPU und erreicht dabei eine bessere Genauigkeit als Methoden, die 50- bis 100-mal länger dauern. Für Unternehmen, die auf 3D-Rekonstruktion angewiesen sind – von AR/VR-Unternehmen bis hin zu Entwicklern autonomer Fahrzeuge – stellt dies einen Quantensprung in den Möglichkeiten dar.

Input Photo (A Dragon) for VGGT
Input Photo (A Dragon) for VGGT

Reconstruction Output of VGGT
Reconstruction Output of VGGT

Funktionsweise: Der technische Durchbruch

Im Kern ist VGGT ein 1,2 Milliarden Parameter starkes Transformer-Modell – in seiner Architektur ähnlich den Modellen, die heutige große Sprachmodelle antreiben, aber spezialisiert auf visuelle Geometrie-Aufgaben. Das System nimmt gewöhnliche Fotos einer Szene auf und gibt direkt aus:

  • Kameraparameter: Die präzise Position und Ausrichtung jeder Kamera, die die Fotos aufgenommen hat
  • Tiefenkarten: Eine Messung, wie weit jeder Pixel von der Kamera entfernt ist
  • Punktkarten: 3D-Koordinaten für jeden Pixel
  • 3D-Punktspuren: Wie sich bestimmte Punkte über verschiedene Blickwinkel hinweg bewegen

Revolutionär an VGGT ist sein „alternierender Aufmerksamkeitsmechanismus“. Das Modell wechselt zwischen der Verarbeitung von Merkmalen innerhalb einzelner Bilder und der Integration von Informationen über alle Bilder hinweg, um die 3D-Struktur zu erfassen.

„Der überraschendste Aspekt ist, dass dies mit einer Standard-Transformer-Architektur erreicht wird“, bemerkt der Branchenanalyst Wei. „Es gibt nur minimales fest codiertes 3D-Geometriewissen – das Modell hat die Prinzipien der 3D-Rekonstruktion im Wesentlichen allein aus Daten gelernt.“

VGGT: Technisches Datenblatt

KategorieTechnische Details
ModellnameVGGT: Visual Geometry Grounded Transformer
KernaufgabeEinheitliche 3D-Rekonstruktion aus mehreren Bildern in einem einzigen Feed-Forward-Durchlauf.
ModellarchitekturTyp: 1,2 Mrd. Parameter Feed-Forward-Transformer.
Schlüsselmechanismus: Alternierende Selbst-Aufmerksamkeit (frame-wise und global) zur Integration von bildspezifischen und Ansichten-übergreifenden Daten.
Schlüssel-Innovationen• Single-Pass-Vorhersage, keine iterative Optimierung erforderlich.
• Einheitliches Multi-Task-Training (Kameras, Tiefe, Punkte, Spuren).
• Skalierbare Architektur für 1 bis Hunderte von Ansichten.
Eingabe1 bis Hunderte von 2D-Bildern einer Szene.
AusgabenKameraparameter (Intrinsik/Extrinsik), Tiefenkarten, 3D-Punktkarten und dichte Punktspuren.
LeistungGeschwindigkeit: ~2-3 Sekunden für 100 Bilder auf einer H100 GPU.
Kamerapose (IMC): AUC@10 von 71,3 (Feed-Forward), 84,9 (mit BA).
MVS (DTU): SOTA (Chamfer: 0,38).
TrainingDaten: Vortrainiert auf über 15 realen und synthetischen 3D-Datensätzen.
Rechenleistung: 64 A100 GPUs für 9 Tage.
Einschränkungen• Unterstützt keine Nicht-Standardobjektive (Fisheye/Panorama).
• Verschlechtert sich bei extremen Rotationen oder nicht-rigiden Szenen.
• Große Modellgröße erfordert Optimierung für den mobilen Einsatz.

Jenseits der Geschwindigkeit: Warum dies für Unternehmen wichtig ist

Die Auswirkungen von VGGT gehen weit über das akademische Interesse hinaus. Die Technologie verspricht, mehrere Industrien zu transformieren:

1. AR/VR und Spatial Computing

Für Unternehmen, die Augmented-Reality-Erlebnisse entwickeln, eröffnet die Fähigkeit, 3D-Umgebungen sofort zu kartieren, neue Möglichkeiten für immersive Anwendungen. „Die Sub-Sekunden-Rekonstruktionszeit bedeutet, dass AR-Systeme sich in Echtzeit an sich ändernde Umgebungen anpassen können“, sagt Marcus Reynolds, CTO eines führenden AR-Startups.

2. Autonome Fahrzeuge und Robotik

Selbstfahrende Autos und Lagerroboter müssen ihre Umgebung schnell verstehen, um sicher zu navigieren. VGGT könnte Wahrnehmungssysteme dramatisch vereinfachen und gleichzeitig sowohl den Rechenaufwand als auch die Latenz reduzieren.

3. E-Commerce und Digitale Zwillinge

Einzelhändler können Smartphone-Fotos sofort in präzise 3D-Produktmodelle umwandeln, während Bau- und Immobilienunternehmen digitale Zwillinge von physischen Räumen mit beispielloser Geschwindigkeit erstellen können. Dies könnte alles von virtuellen Anproben bis hin zu virtuellen Immobilienbesichtigungen revolutionieren.

4. Inhaltserstellung

Für VFX-Studios, Spieleentwickler und Metaverse-Ersteller liefert VGGT hochwertige 3D-Assets aus gewöhnlichen Fotos oder Video-Frames. Was früher spezielle Ausrüstung und Fachwissen erforderte, kann jetzt mit einem Smartphone und diesem KI-Modell erreicht werden.

Auswirkungen für Investitionen: Wer profitiert?

Die Veröffentlichung von VGGT hat erhebliche Auswirkungen für Investoren, die den Bereich Computer Vision beobachten. Unternehmen mit bestehenden 3D-Rekonstruktionsprodukten müssen möglicherweise schnell umschwenken oder riskieren, obsolet zu werden. Frühe Anwender dieser Technologie könnten derweil erhebliche Wettbewerbsvorteile in ihren jeweiligen Märkten erzielen.

Hardwarehersteller, die KI-Inferenz unterstützen – insbesondere solche, die sich auf Edge Computing konzentrieren – sollten eine erhöhte Nachfrage verzeichnen, wenn VGGT und ähnliche Modelle von der Forschung zur Bereitstellung übergehen. Die wahren Gewinner könnten jedoch Anwendungsentwickler sein, die nun zuvor unmögliche Produkte auf dieser Grundlage aufbauen können.

Laut der Venture-Kapitalistin Sophia Lin: „Wir sehen hier ein klassisches Szenario einer Enabling-Technologie. VGGT verbessert nicht nur bestehende Anwendungen; es macht völlig neue Produktkategorien realisierbar. Ich erwarte, dass wir innerhalb der nächsten 12-18 Monate eine Welle von Startups sehen werden, die diese Fähigkeit nutzen.“

Herausforderungen und Einschränkungen

Trotz seiner bahnbrechenden Leistung ist VGGT nicht ohne Einschränkungen. Die aktuelle Version hat Schwierigkeiten mit Fisheye-Objektiven und Panorama-Bildern. Sie zeigt auch eine reduzierte Genauigkeit bei extremen Kamerarotationen und stark dynamischen Szenen mit erheblicher Bewegung.

Das Training solcher Modelle bleibt rechenintensiv – die Forscher nutzten 64 High-End-GPUs für neun Tage. Dieser Aufwand könnte die Replikationsbemühungen außerhalb großer Forschungslabore und Tech-Giganten einschränken.

Zusätzlich bleibt das Modell mit 1,2 Milliarden Parametern ohne Optimierung zu groß für den mobilen Einsatz. „Wir werden destillierte oder quantisierte Varianten benötigen, bevor dies direkt auf Smartphones laufen kann“, erklärt der Hardware-Analyst James Patterson.

Der Weg nach vorn

Mit der Veröffentlichung des Codes und der Modelle von VGGT auf GitHub hat sich die Akzeptanz bereits beschleunigt. Forschungslabore und Unternehmen erforschen Anwendungen von autonomen Drohnen bis hin zur medizinischen Bildgebung.

Die Auswirkungen des Papers signalisieren einen grundlegenden Wandel in der Computer-Vision-Forschung – weg von handgefertigten geometrischen Pipelines hin zu neuronalen Ansätzen, die auf massiven Datensätzen trainiert werden. Es ist ein Muster, das wir zuvor in der Verarbeitung natürlicher Sprache und der 2D-Computer-Vision gesehen haben und das sich nun in der 3D-Wahrnehmung wiederholt.

Für Führungskräfte und Investoren ist die Botschaft klar: 3D-Rekonstruktion ist kein langsamer, spezialisierter Prozess mehr, sondern eine On-Demand-Fähigkeit, die mit minimaler Latenz in Produkte und Dienstleistungen integriert werden kann. Wer diesen Wandel frühzeitig erkennt und handelt, wird sich einen erheblichen Wettbewerbsvorteil in der sich schnell entwickelnden Spatial-Computing-Landschaft verschaffen.

Wie ein Rezensent bemerkte: „VGGT ist sowohl ein wissenschaftlicher Durchbruch als auch ein sofort nützliches Grundmodell für 3D-zentrierte Industrien.“ Das Rennen um die Kapitalisierung dieser Technologie hat bereits begonnen.

Github
Github

Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote

Wir verwenden Cookies auf unserer Website, um bestimmte Funktionen zu ermöglichen, Ihnen relevantere Informationen bereitzustellen und Ihr Erlebnis auf unserer Website zu optimieren. Weitere Informationen finden Sie in unserer Datenschutzrichtlinie und unseren Nutzungsbedingungen . Obligatorische Informationen finden Sie im Impressum