DeepSeek-V3s Geheimwaffe enthüllt – Wie eine KI mit 671 Milliarden Parametern auf nur 2.048 GPUs läuft

Von
Lang Wang
4 Minuten Lesezeit

DeepSeek-V3s Geheimwaffe: Wie eine KI mit 671 Milliarden Parametern auf nur 2.048 GPUs läuft

Bei KI-Innovationen geht es nicht mehr nur um größere Modelle, sondern darum, intelligentere Systeme zu bauen. Während Tech-Giganten darum wetteifern, Modelle mit Milliarden von Parametern zu skalieren, liefert DeepSeeks neueste Forschung einen Gegenentwurf, der aus guten Gründen Aufsehen erregt: Leistung ohne unnötigen Aufwand. Das neu veröffentlichte Paper „Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures“ zeigt nicht nur, wie DeepSeek-V3 Spitzenleistungen bei Benchmarks erzielt, sondern auch, warum es dies kostengünstiger tun kann als jedes vergleichbare große Modell.

Und das ist kein leeres Marketing-Gerede. Es ist eine Blaupause dafür, wie das Co-Design von Hardware und Software die KI-Branche verändert – und dabei die Infrastrukturkosten senkt.


Teil I: DeepSeeks Architekturstrategie – Warum 37B > 405B

Das Herzstück des Leistungs- und Kostenvorteils von DeepSeek-V3 ist seine Mixture-of-Experts (MoE) Architektur. Von den insgesamt 671 Milliarden Parametern werden pro Token nur 37 Milliarden aktiviert. Diese Designentscheidung reduziert den Rechenaufwand pro Forward-Pass drastisch:

  • 250 GFLOPs/Token im Vergleich zu 394 GFLOPs/Token bei dichten 72B-Modellen
  • Über 10-mal effizienter als dichte 405B-Modelle (2.448 GFLOPs/Token)

Die Botschaft ist klar: Sparse Aktivierung, wenn richtig umgesetzt, lässt sich besser skalieren – nicht nur in der Theorie, sondern auf echter Hardware. Dieses Design macht DeepSeek-V3 kostengünstig beim Training und Einsatz, selbst in einem nie dagewesenen Ausmaß.

Basic Architecture of Deepseek V3
Basic Architecture of Deepseek V3


Teil II: Hardware-optimierte Innovationen, die Kosten auf jeder Ebene senken

Die überzeugendsten Erkenntnisse aus dem Paper stammen von der systematischen Co-Optimierung von Hardware und Modell, die DeepSeeks Ingenieure in den Trainingsprozess integriert haben. Das sind keine oberflächlichen Anpassungen, sondern ein tiefgreifendes Umdenken darüber, wie große Sprachmodelle (LLMs) mit physischer Infrastruktur interagieren.

1. Multi-Head Latent Attention (MLA)

MLA komprimiert Key-Value (KV)-Caches in kompakte latente Darstellungen und reduziert so den Speicherverbrauch drastisch:

  • KV-Cache-Größe: 70 KB pro Token, reduziert von 327–516 KB
  • Ermöglicht längere Kontextfenster und effizientere Hardware-Skalierung

Dies verbessert nicht nur den Durchsatz pro GPU, sondern macht das Modell auch in Umgebungen mit weniger Speicher nutzbar.

2. FP8 Mixed-Precision Training

Die Verwendung von feingranularer FP8 Präzision durch DeepSeek senkt den Speicher- und Rechenaufwand erheblich:

  • Halbiert den Aktivierungsspeicher
  • Hält den Genauigkeitsverlust minimal
  • Ermöglicht das Training eines 671B MoE-Modells mit nur 2.048 NVIDIA H800 GPUs

Dies ist ein Bruchteil dessen, was zum Trainieren von Modellen wie GPT-4 verwendet wird, und reduziert die Trainingskosten von Hunderten Millionen auf unter 6 Millionen US-Dollar.

3. Speculative Multi-Token Prediction

Diese neue Decodierungsstrategie sagt mehrere Token parallel voraus und überprüft sie, was zu Folgendem führt:

  • 1,8-fache Steigerung des Durchsatzes
  • Deutlich schnellere Inferenzen ohne Einbußen bei der Ausgabequalität

Es ist eine einfache architektonische Veränderung, die große Auswirkungen auf die Kosten für den Betrieb und die Latenz hat.

4. Kommunikations- und Netzwerkoptimierung

Von der Überlappung der MoE-Kommunikation mit Berechnungen bis zur Implementierung von FP8-Netzwerkkomprimierung ist jeder Teil der Infrastruktur von DeepSeek-V3 auf Effizienz ausgelegt:

  • 50 % Reduzierung der Kommunikationsbandbreite
  • Eine benutzerdefinierte zweischichtige Fat-Tree-Verbindung senkt die Hardwarekosten bei gleichbleibend niedriger Latenz
  • Effizient genug, um auf über 16.000 GPUs zu skalieren

Diese Entscheidungen spiegeln die Realität des Trainings großer Modelle in Umgebungen mit Einschränkungen wider, sei es in akademischen Laboren oder Start-ups.


Teil III: Praktische Auswirkungen und strategische Bedeutung

Während das Modell bereits für seine Leistung anerkannt wurde – es übertrifft sogar GPT-4.5 bei Aufgaben wie Mathematik und Codegenerierung – sind es die im Paper offenbarten Entscheidungen auf Infrastrukturebene, die langfristigen strategischen Wert haben.

Für Investoren und Cloud-Anbieter

  • Kostenführerschaft: Die Trainingskosten von DeepSeek von 5,576 Millionen US-Dollar stehen in scharfem Kontrast zu den Hunderten Millionen von OpenAI.
  • Stückkosten: Mit Inferenzkosten von nur 2,19 US-Dollar pro Million ausgegebener Token unterbietet DeepSeek OpenAI (60,00 US-Dollar) um mehr als 90 %.
  • Marktstörung: Dieses Preismodell trug zu einer weltweiten Korrektur der KI-Aktien und einem Rückgang des Nvidia-Aktienkurses um 18 % Anfang des Jahres bei.

Für Unternehmen

  • Machbarkeit des Einsatzes am Edge: Sparse MoE macht es machbar, leistungsstarke Modelle auf Consumer-GPUs oder lokalen Edge-Geräten laufen zu lassen.
  • Einführung in Unternehmen: DeepSeek wurde in Entwicklungsteams integriert, wobei im praktischen Einsatz 35 % weniger Zeit für Routine-Coding gemeldet wurde.

Für Open-Source-Communities

  • Zugang und Erweiterbarkeit: DeepSeek-V3 ist über OpenRouter, Hugging Face und APIs verfügbar – vollständig Open Source und anpassbar.
  • Reaktion der Community: Über 15.000 GitHub-Sterne, über 3.000 angepasste Versionen und ein schnell wachsendes Ökosystem in Asien, Europa und Nordamerika.

Teil IV: Was ist neu in DeepSeek-V3-0324?

Während DeepSeek-V3 schon seit Monaten auf dem Markt ist, legt das Update vom März 2025 (V3-0324) deutlich zu:

  • Parameteranzahl auf 685B erhöht
  • Deutliche Verbesserungen bei Benchmarks:
    • MMLU-Pro: 75,9 → 81,2
    • AIME: 39,6 → 59,4
    • GPQA: 59,1 → 68,4
  • Verbesserte Code- und Frontend-Generierung
  • Stärkere Leistung bei chinesischem NLP und Funktionsaufrufen
  • Übertrifft weiterhin führende proprietäre Modelle bei mehrsprachigen Aufgaben und Denkaufgaben

Noch wichtiger ist, dass das Paper Open-Source FP8-Frameworks, Empfehlungen für das Hardware-Layout und Kompressionsmethoden dokumentiert, die als Fahrplan für alle dienen, die LLMs effizient entwickeln wollen.


Fazit: Was das für die Zukunft der KI-Skalierung bedeutet

DeepSeek-V3 ist mehr als ein leistungsstarkes Modell – es ist eine Fallstudie für nachhaltige KI-Skalierung. Das neu veröffentlichte technische Paper entschlüsselt, wie DeepSeek Leistungsparität mit Marktführern zu einem Bruchteil der Infrastrukturkosten erreicht hat. Es ist ein Weckruf für die Branche: GPUs auf ein Problem zu werfen, ist kein tragfähiger Wettbewerbsvorteil mehr.

Zusammenfassend:

  • MoE + FP8 + MLA = extrem effiziente Rechenleistung
  • Das Kosten-Leistungs-Verhältnis ist zum neuen Schlachtfeld geworden
  • DeepSeek bietet eine Anleitung für Start-ups und Labore, Big AI zu ihren eigenen Bedingungen herauszufordern

Nun stellt sich die Frage: Werden andere der Blaupause folgen – oder weiter auf die alte Art skalieren, bis die Rechnung fällig wird?


Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote

Wir verwenden Cookies auf unserer Website, um bestimmte Funktionen zu ermöglichen, Ihnen relevantere Informationen bereitzustellen und Ihr Erlebnis auf unserer Website zu optimieren. Weitere Informationen finden Sie in unserer Datenschutzrichtlinie und unseren Nutzungsbedingungen . Obligatorische Informationen finden Sie im Impressum