NVIDIA stellt Rekord-KI-System mit DeepSeek-R1 und Blackwell-GPUs vor

Von
CTOL Editors - Ken
2 Minuten Lesezeit

NVIDIAs KI-Revolution: DeepSeek-R1 bricht Rekorde bei der Inferenzgeschwindigkeit

Der nächste Sprung im KI-Computing

NVIDIA hat wieder einmal die Grenzen des KI-Computings verschoben. Auf der GTC 2025 kündigte das Unternehmen eine bahnbrechende Leistung an: Sein DGX-System, ausgestattet mit acht Blackwell-GPUs, hat einen Weltrekord für KI-Inferenzgeschwindigkeit beim Ausführen des DeepSeek-R1-Modells aufgestellt – ein 6,71-Billionen-Parameter-Kraftpaket. Das System kann über 30.000 Token pro Sekunde bei maximalem Durchsatz verarbeiten, wobei einzelne Benutzer 250 Token pro Sekunde erreichen, ein Leistungssprung, der Echtzeit-KI-Interaktionen neu definiert.

Dieser Meilenstein unterstreicht nicht nur NVIDIAs Dominanz auf dem KI-Hardwaremarkt, sondern signalisiert auch eine breitere Verschiebung im KI-Computing – eine, bei der die Inferenzgeschwindigkeit und nicht nur das Modelltraining den Wettbewerbsvorteil bestimmt.

Aufschlüsselung des Leistungsschubs

Die Kerninnovation hinter diesem Sprung ist die tiefe Optimierung zwischen NVIDIAs Blackwell-GPU-Architektur und seinem TensorRT-LLM-Softwarestack. Mehrere wichtige technologische Fortschritte tragen zu den Leistungssteigerungen bei:

  • Tensor-Kerne der fünften Generation: Blackwell-GPUs verfügen über eine verbesserte FP4-Präzisionsunterstützung, die einen geringeren Speicherverbrauch und eine schnellere Berechnung ermöglicht.
  • Dynamisches Batching & Quantisierung: TensorRTs Inferenzoptimierungen, einschließlich intelligenter dynamischer Batching- und Quantisierungstechniken, steigern die Effizienz erheblich.
  • Energieeffizienz: Trotz seiner hohen Leistung reduziert das neue System den Energieverbrauch pro Inferenzaufgabe und verbessert so die betriebliche Kosteneffizienz.

Im Vergleich zu seinem Vorgänger, dem Hopper-basierten DGX H200, bietet das neue DGX-System die dreifache Leistung bei den gleichen Aufgaben. Noch beeindruckender ist, dass sich der Durchsatz von DeepSeek-R1 seit Januar 2025 um das 36-fache erhöht hat, während die Inferenzkosten pro Token um das 32-fache gesunken sind.

Warum das für Unternehmen und Investoren wichtig ist

1. Niedrigere Hürden für die KI-Einführung

Für Unternehmen wurden die finanziellen und infrastrukturellen Hürden für die Bereitstellung grosser KI-Modelle deutlich reduziert. Aufgaben, die zuvor mehrere KI-Server erforderten, können nun von einem einzelnen DGX-System übernommen werden, was Kosten senkt und die Effizienz steigert. Diese Demokratisierung von High-Performance-KI könnte die Akzeptanz in allen Branchen, von Finanzen bis Gesundheitswesen, beschleunigen.

2. Ein Paradigmenwechsel vom Training zur Inferenz

NVIDIAs neuester Schritt unterstreicht einen strategischen Branchenübergang: Der Wettbewerbsvorteil von KI verschiebt sich vom Modelltraining zur Inferenzgeschwindigkeit und -effizienz. Historisch gesehen lag der Fokus auf der Entwicklung immer grösserer Modelle, aber praktische Anwendungen erfordern Echtzeitleistung. NVIDIAs Fokus auf die Beschleunigung der Inferenz positioniert es als den wichtigsten Wegbereiter für den KI-Einsatz in grossem Massstab.

3. Wettbewerbsvorteil gegenüber Rivalen

Die rekordverdächtigen Inferenzgeschwindigkeiten festigen NVIDIAs Dominanz gegenüber Wettbewerbern wie AMD, Intel und aufstrebenden Anbietern von kundenspezifischen KI-Chips. Vergleiche mit der Llama 3-Serie von Meta deuten darauf hin, dass NVIDIAs Inferenzdurchsatz mindestens dreimal höher ist, was seinen Vorteil im High-Performance-KI-Markt unterstreicht.

Darüber hinaus betonte Jensen Huang, CEO von NVIDIA, dass "der Rechenbedarf für KI-Inferenz jetzt 100-mal grösser ist als im letzten Jahr", eine Aussage, die darauf abzielt, Kritik an den hohen Preisen von NVIDIAs Chips zu entkräften.

Was kommt als Nächstes?

Das KI-Rennen geht weiter

Während NVIDIAs Fortschritte unbestreitbar sind, bleiben wichtige Fragen offen. Wird sich die Leistung von DeepSeek-R1 in einer breiten Akzeptanz niederschlagen, oder werden proprietäre KI-Modelle seine Einsatzflexibilität einschränken? Werden Wettbewerber wie OpenAI, Google DeepMind und Anthropic auf die Optimierung der Inferenz umschwenken, um Schritt zu halten?

Eines ist sicher: Das Zeitalter langsamer KI-Reaktionszeiten ist vorbei. Da die Inferenzgeschwindigkeiten ein noch nie dagewesenes Niveau erreichen, werden KI-gestützte Anwendungen – von virtuellen Assistenten bis hin zu autonomen Systemen – mit nahezu sofortiger Reaktionsfähigkeit arbeiten.

Für Unternehmen und Investoren ist dies ein klares Signal: Die nächste Grenze in der KI liegt nicht nur darin, grössere Modelle zu bauen, sondern darin, sie in der Geschwindigkeit des Denkens auszuführen.

Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote

Wir verwenden Cookies auf unserer Website, um bestimmte Funktionen zu ermöglichen, Ihnen relevantere Informationen bereitzustellen und Ihr Erlebnis auf unserer Website zu optimieren. Weitere Informationen finden Sie in unserer Datenschutzrichtlinie und unseren Nutzungsbedingungen . Obligatorische Informationen finden Sie im Impressum