NVIDIA veröffentlicht KI-Modelle Cosmos-Reason1, die Physik verstehen und Roboter mittels natürlicher Sprache steuern können

Von
Lang Wang
5 Minuten Lesezeit

NVIDIA stellt Cosmos-Reason1 vor: Revolutionäre KI-Modelle verbinden physisches Verständnis und verkörpertes Denken

NVIDIA-Forscher haben Cosmos-Reason1 vorgestellt, eine bahnbrechende Familie multimodaler großer Sprachmodelle. Sie stellt einen bedeutenden Fortschritt in der Fähigkeit künstlicher Intelligenz dar, die physische Welt zu verstehen und logisch zu durchdenken. Die neuen KI-Modelle, verfügbar in 7B- und 56B-Parameter-Versionen, wurden speziell entwickelt, um KI-Systemen physikalischen Alltagsverstand und Fähigkeiten zum verkörperten Denken zu verleihen. Dies könnte Robotik, autonome Fahrzeuge und Augmented-Reality-Anwendungen revolutionieren.

NVIDIA Cosmos (github.com)
NVIDIA Cosmos (github.com)

Ein umfassender Ansatz für physische KI

Das NVIDIA-Forschungsteam hat Cosmos-Reason1 durch einen innovativen, systematischen Ansatz entwickelt, der eine der hartnäckigsten Herausforderungen der KI angeht: den Mangel an physischer Verankerung in großen Sprachmodellen. Der Entwicklungsprozess umfasste die Erstellung umfassender Ontologien, die Kuration riesiger Datensätze und die Implementierung spezialisierter Trainingsmethoden, um die Lücke zwischen sprachbasierter KI und realer physischer Interaktion zu schließen.

Die Forscher entwickelten zwei verschiedene Ontologien, um ihren Ansatz zu strukturieren. Die erste ist eine hierarchische Ontologie, die den physischen Alltagsverstand in drei Hauptkategorien unterteilt: Raum, Zeit und Grundlegende Physik, weiter unterteilt in 16 spezifische Unterkategorien. Die zweite ist eine zweidimensionale Ontologie für verkörpertes Denken, die vier Schlüsselkompetenzen (sensorische Verarbeitung, Effektvorhersage, Beachtung von Einschränkungen und Lernen aus Interaktion) über fünf verschiedene Agententypen hinweg abbildet.

Um diese Modelle effektiv zu trainieren, kuratierte das Team etwa 4 Millionen Video-Text-Paare, bestehend aus visuellen Frage-Antwort-Aufgaben, schlussfolgernden Gedankengängen und Rätseln zur intuitiven Physik. Der Trainingsprozess umfasste zwei verschiedene Phasen: überwachtes Fein-Tuning (Physical AI Supervised Fine-Tuning) anhand domänenspezifischer Video-Reasoning-Daten, gefolgt von Reinforcement Learning (Physical AI Reinforcement Learning) unter Verwendung regelbasierter, überprüfbarer Belohnungen, die aus Multiple-Choice-Fragen abgeleitet wurden.

Die Entwicklung gipfelte in der Schaffung neuartiger Benchmarks, bestehend aus 1.214 Multiple-Choice-Fragen zum verkörperten Denken und 604 Fragen zum physischen Alltagsverstand. Bei der Bewertung anhand dieser Benchmarks zeigte Cosmos-Reason1 eine überragende Leistung und übertraf starke Basismodelle wie GPT-4o und Qwen2.5-VL um 10-15 Punkte bei Aufgaben zum verkörperten Denken und um 2-7 Punkte bei Aufgaben zum Alltagsverstand.

Cosmos RL Infra (githubusercontent.com)
Cosmos RL Infra (githubusercontent.com)

Wichtige Erkenntnisse: Die Transformation der physischen Intelligenz von KI

Die Einführung von Cosmos-Reason1 kennzeichnet mehrere wichtige Errungenschaften in der Entwicklung künstlicher Intelligenz. Die Modelle zeigen, dass große Sprachmodelle durch gezielte Datenkuration und Reinforcement-Learning-Techniken effektiv in realer Physik verankert werden können. Dies stellt eine grundlegende Veränderung gegenüber traditionellen KI-Ansätzen dar, die häufig Schwierigkeiten mit grundlegenden physikalischen Denkaufgaben haben.

Die Forschung etabliert die ersten umfassenden Benchmarks für physikalischen Alltagsverstand und verkörpertes Denken. Sie bietet standardisierte Bewertungsmethoden, die eine vergleichbarere und reproduzierbarere Forschung in diesem Bereich ermöglichen. Die dualen Ontologien bieten Forschern ein systematisches Framework zur Kategorisierung und Bewertung physikalischer Denkfähigkeiten, das potenziell als Lingua franca für die breitere KI-Gemeinschaft dienen könnte.

Die skalierbare Trainingsmethodik, insbesondere die Verwendung regelbasierter Belohnungen für das Reinforcement Learning, demonstriert praktische Ansätze, die auf andere strukturierte Denkaufgaben verallgemeinert werden könnten. Die im 56B-Modell verwendete hybride Mamba-MLP-Transformer-Architektur zeigt effiziente Lösungen für das Reasoning mit langem Kontext in multimodalen Anwendungen auf.

NVIDIA hat zugesagt, den Code und die vortrainierten Modellgewichte unter der NVIDIA Open Model License zu veröffentlichen. Dies ermöglicht eine breitere Akzeptanz und beschleunigt den Forschungsfortschritt in akademischen und kommerziellen Umgebungen.

Tiefergehende Analyse: Auswirkungen auf KI und Industrie

Die Bedeutung von Cosmos-Reason1 reicht weit über seine unmittelbaren technischen Errungenschaften hinaus und stellt einen Paradigmenwechsel dar, wie KI-Systeme mit der physischen Welt interagieren und diese verstehen können. Die Forschung behebt grundlegende Einschränkungen, die KI historisch daran gehindert haben, zuverlässige Leistungen in realen Anwendungen zu erbringen, die physikalisches Verständnis erfordern.

Aus technischer Sicht zeigt die Arbeit, dass eine gezielte Ausrichtung auf intuitive physikalische Konzepte durch spezielle Trainingsdaten die Modellleistung erheblich verbessert. Der Fokus auf grundlegende Aspekte wie den „Zeitpfeil“, „räumliche Rätsel“ und „Objektpermanenz“ stellt einen neuartigen Ansatz für das KI-Training dar, der oft übersehene, aber entscheidende Fähigkeiten für physische Interaktion anspricht.

Die Methodik, große Sprachmodelle zur Generierung von schlussfolgernden Gedankengängen zu nutzen, gefolgt von Verfeinerung und Validierung, stellt einen skalierbaren Ansatz zur Erstellung hochwertiger Trainingsdaten für komplexe Denkaufgaben dar. Diese Datenkurationstrategie mit Modell im Kreislauf könnte neue Methoden in verschiedenen KI-Anwendungen inspirieren, die ausgeklügelte Denkfähigkeiten erfordern.

Die geschäftlichen Auswirkungen sind in mehreren Branchen besonders überzeugend. In Robotik und Automatisierung könnten diese Modelle Service- und Industrierobotern ermöglichen, eine verbesserte physische Intuition zu zeigen. Dies reduziert Trial-and-Error-Lernen und erhöht die Sicherheit bei komplexen Aufgaben wie Greif- und Platzierungsoperationen, Montageprozessen und autonomer Navigation.

Für die Entwicklung autonomer Fahrzeuge könnten die verbesserten Entscheidungsfähigkeiten bei der Bewältigung dynamischer Szenarien wie widrigen Wetterbedingungen, komplexen Verkehrsinteraktionen und unerwarteten Straßensituationen entscheidend sein. Das verbesserte Verständnis der physikalischen Dynamik könnte zu robusteren Vorhersage- und Planungssystemen führen.

In Augmented-Reality- und Digital-Twin-Anwendungen könnte Cosmos-Reason1 natürlichere Sprachschnittstellen ermöglichen, die physische Interaktionen in simulierten und realen Umgebungen präzise begründen und anleiten. Diese Fähigkeit könnte verändern, wie Benutzer mit komplexen Industriesystemen und virtuellen Umgebungen interagieren.

Die Sektoren Asset Management und Inspektion könnten von automatisierten Qualitätskontrollsystemen profitieren, die Objektpermanenz und mechanische Handlungsspielräume verstehen. Dies führt zu zuverlässigeren und effizienteren Inspektionsprozessen in Fertigungs- und Industrieumgebungen.

Wussten Sie schon: Faszinierende Fakten über physische KI

Die Entwicklung von physikalischem Alltagsverstand in KI-Systemen schließt eine überraschende Lücke in der aktuellen Technologie. Trotz ihrer beeindruckenden Sprachfähigkeiten erzielen viele hochmoderne multimodale große Sprachmodelle bei grundlegenden intuitiven Physikaufgaben, die die meisten Menschen in der frühen Kindheit meistern, nahezu zufällige Ergebnisse.

Die Forschung zeigte, dass bestehende leistungsstarke Modelle wie GPT-4o und andere führende multimodale Systeme erheblich mit grundlegenden physikalischen Denkkonzepten zu kämpfen haben. Dies unterstreicht die Bedeutung spezialisierter Trainingsansätze. Dieser Befund verdeutlicht, wie verbale Raffinesse nicht unbedingt in physisches Verständnis übersetzt wird.

Der Cosmos-Reason1-Trainingsdatensatz umfasst innovative selbstüberwachte Aufgaben, die darauf ausgelegt sind, grundlegende physikalische Konzepte zu lehren. Dazu gehören räumliche Rätsel, die das Verständnis von Objektbeziehungen testen, Zeitpfeil-Herausforderungen, die das zeitliche Denken bewerten, und Objektpermanenztests, die bewerten, ob Modelle verstehen, dass Objekte auch außerhalb des Sichtfelds weiter existieren.

Die hybride Mamba-MLP-Transformer-Architektur stellt einen aufkommenden Trend im KI-Modelldesign dar, der verschiedene Rechenansätze kombiniert, um eine effizientere Verarbeitung von Informationen mit langem Kontext zu erreichen. Diese architektonische Innovation könnte zukünftige Entwicklungen in multimodalen KI-Systemen beeinflussen.

Interessanterweise zeigt die Forschung, dass Reinforcement Learning mit einfachen, regelbasierten Belohnungen spezifische Denkfähigkeiten in großen Sprachmodellen effektiv verbessern kann. Dieser Ansatz deutet darauf hin, dass komplexe KI-Fähigkeiten durch relativ einfache Belohnungsmechanismen verbessert werden können, wenn sie richtig konzipiert sind.

Die Open-Source-Veröffentlichung von Cosmos-Reason1 unter einer freizügigen Lizenz stellt einen bedeutenden Beitrag zur KI-Forschungsgemeinschaft dar und beschleunigt potenziell Entwicklungszeiten für Unternehmen, die physische Denkfähigkeiten in ihre Produkte und Dienstleistungen integrieren möchten. Dieser Ansatz steht im Gegensatz zum zunehmend proprietären Charakter vieler fortgeschrittener KI-Entwicklungen.

Die Schaffung standardisierter Benchmarks für die Bewertung physischer KI erfüllt einen kritischen Bedarf in diesem Bereich, da das Fehlen konsistenter Bewertungsmethoden es schwierig gemacht hat, verschiedene Ansätze zu vergleichen und den Fortschritt systematisch zu verfolgen. Diese Benchmarks könnten zu wesentlichen Werkzeugen für die zukünftige Forschung und Entwicklung in verkörperten KI-Systemen werden.

Github Repo

Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote

Wir verwenden Cookies auf unserer Website, um bestimmte Funktionen zu ermöglichen, Ihnen relevantere Informationen bereitzustellen und Ihr Erlebnis auf unserer Website zu optimieren. Weitere Informationen finden Sie in unserer Datenschutzrichtlinie und unseren Nutzungsbedingungen . Obligatorische Informationen finden Sie im Impressum