DeepSeek bringt 671B KI-Modell DeepSeek-Prover-V2 für formale Mathe-Beweise heraus und startet neuen Benchmark-Datensatz

Von
Lang Wang
6 Minuten Lesezeit

Einblick in DeepSeek-Prover-V2: Warum dieses Modell mit 671 Milliarden Parametern der Schlüssel für die Zukunft des mathematischen Denkens der KI sein könnte

Am 30. April 2025 – kurz vor einem Feiertag in China – veröffentlichte DeepSeek ein Modell, das in einer Nische, aber dennoch grundlegend wichtigen Ecke der künstlichen Intelligenz für großes Aufsehen sorgt: dem formalen mathematischen Denken. Während sich das breitere KI-Rennen auf Chatbot-Persönlichkeiten und auffällige multimodale Demos konzentriert, hat DeepSeek auf einen weniger schlagzeilenträchtigen, aber strategisch kritischen Bereich gesetzt – das automatische Beweisen von Sätzen.

DeepSeek-Prover-V2, ihre neueste Open-Weight-Version, mag in den sozialen Medien keine großen Wellen schlagen, aber ihre Auswirkungen ziehen sich durch die Wissenschaft, das Ingenieurwesen und zukünftige AGI-Systeme. Mit einem 671B-Parameter-Backbone und einer tiefen Integration mit Lean 4 formalen Beweisen leistet es mehr als nur das Lösen von mathematischen Problemen – es formalisiert mathematische Wahrheit in Code. Für langfristige Investoren, Forschungseinrichtungen und Stakeholder der KI-Infrastruktur ist dieses Modell nicht nur eine Kuriosität. Es ist ein Maßstab – und möglicherweise eine Blaupause.

DeepSeek (washu.edu)
DeepSeek (washu.edu)


Kaltstart der Mathematik-Engine – Wie DeepSeek ein Theorem-Beweis-LLM trainiert

Der DeepSeek-Prover-V2 ist keine bloße Feinabstimmung bestehender Modelle. Seine Kerninnovation liegt darin, wie er synthetische "Kaltstart"-Daten generiert, um ein Modell in einer ansonsten extrem datenarmen Domäne zu trainieren.

Um zu verstehen, warum das wichtig ist, bedenken Sie Folgendes: Formale Beweise erfordern – im Gegensatz zur natürlichen Sprache – eine starre Logik, eine strikte Syntax und überprüfbare Ergebnisse. Sie sind nicht nachsichtig. Es gibt keinen Raum für Mehrdeutigkeiten oder stilistische Abweichungen.

DeepSeeks Antwort? Verwenden Sie das eigene Basismodell, DeepSeek-V3, als Lehrer. Die Pipeline zerlegt komplexe mathematische Sätze in eine Reihe strukturierter Unterziele, die jeweils über Lean 4 in formale Logik übersetzt werden. Diese Beweisschritte werden zunächst von einem kleineren 7B-Modell aus Effizienzgründen bearbeitet, und sobald sie gelöst sind, werden sie zu einer kohärenten Kette von Denkspuren verwoben, die einen synthetischen Kaltstart-Datensatz bilden.

Dieser rekursive Generierungsrahmen ist nicht nur clever – er ist skalierbar. DeepSeek hat im Wesentlichen eine Selbstlernschleife gebaut, die die Art und Weise nachahmt, wie ein Mathematiker Probleme zerlegt: denken, vereinfachen, beweisen, synthetisieren.


Von Daten zur Verstärkung – Training durch verifiziertes Denken

Sobald Kaltstart-Daten synthetisiert sind, geht DeepSeek zum Reinforcement Learning über. Aber nicht mit menschlich gekennzeichneten Daten – sondern mit Problemen, die überprüfbare Ergebnisse haben. Das Modell erhält binäres Feedback: Hat es einen korrekten Beweis erbracht oder nicht?

Diese Feedbackschleife verbindet informelles Denken (die natürliche Domäne des LLM) mit formaler Logik (die strikte Domäne von Lean 4). Das Endergebnis, DeepSeek-Prover-V2-671B, denkt nicht nur in Worten – es generiert Beweise, die Maschinen und Mathematiker gleichermaßen Zeile für Zeile validieren können.

Die Leistungszahlen unterstreichen sein Versprechen:

  • 88,9 % Erfolgsquote beim MiniF2F-Test (ein Maßstab für mathematisches Denken)
  • 49 von 658 gelösten Problemen auf PutnamBench, einer Reihe von mathematischen Herausforderungen auf Elite-Niveau

Zum Vergleich: Diese Zahlen verschieben den Stand der Technik beim neuronalen Theorembeweisen. Das mag zwar nicht so glamourös klingen wie Bilderzeugung oder Dialogagenten, aber die zugrunde liegenden Fähigkeiten lassen sich viel besser auf robuste, zuverlässige KI-Denksysteme übertragen.


ProverBench – Ein neuer Standard für die formalisierte mathematische Bewertung

Neben dem Modell veröffentlichte DeepSeek ProverBench, einen Datensatz mit 325 rigoros formalisierten Problemen. Das beinhaltet:

  • 15 Probleme aus den letzten AIME-Wettbewerben
  • Dutzende weitere aus den Kernbereichen der Mathematik: Algebra, Analysis, reelle und komplexe Analysis und Wahrscheinlichkeit

Das ist wichtig, weil frühere Datensätze im formalen Theorembeweisen entweder zu synthetisch oder zu eng gefasst waren. ProverBench bringt Gleichgewicht: reale Bildungsrelevanz, wettbewerbsfähige Problemkomplexität und eine vielfältige Bandbreite mathematischer Strukturen.

Aufschlüsselung des Datensatzes:

BereichAnzahl der Probleme
Analysis90
Lineare Algebra50
Abstrakte Algebra40
Zahlentheorie40
AIME15
Andere90

Durch die Veröffentlichung sowohl des Modells als auch dieses Benchmarks zeigt DeepSeek nicht nur seine Fähigkeiten – es lädt auch zu rigorosem Vergleich und offenem Experimentieren ein.


Implikationen für Investoren – Warum diese Nische wichtig ist

Für einen unbeteiligten Beobachter mag das formale Theorembeweisen wie ein akademisches Eitelkeitsprojekt aussehen. Aber für jeden, der das AGI-Rennen verfolgt, wird das Muster immer deutlicher. DeepSeeks Roadmap priorisiert:

  1. Mathematik- und Programmiermodelle
  2. Multimodale Integration
  3. Natürliche Sprachverarbeitung

Und zwar in dieser Reihenfolge.

Was mathematische Modelle wie Prover-V2 aus Investitions- und Strategiesicht besonders attraktiv macht, ist ihre Überprüfbarkeit. In einer Welt, in der Halluzinationen eine Achillesferse für LLMs darstellen, bieten Theorembeweiser einen seltenen Vorteil: deterministische Korrektheit. Entweder der Beweis hält, oder er hält nicht.

Mehrere Experten haben angedeutet, dass DeepSeek-Prover-V2 nicht das Endziel, sondern ein strategischer Meilenstein ist. Ein Insider nannte es einen "Datensynthesizer" für DeepSeeks kommende allgemeine Modelle, möglicherweise mit den Codenamen V4 oder R2. Diese zukünftigen Systeme könnten das rigorose Denken von Prover-V2 in breitere, allgemeinere Modelle integrieren, die mit menschlicher Präzision programmieren, schreiben und Probleme über verschiedene Bereiche hinweg lösen können.

Mit anderen Worten, DeepSeek könnte im Stillen eine Grundlage für ein überprüfbares, verantwortliches AGI-System schaffen – eines, das über die reine Wortvorhersage hinaus in logisches Denken und vertrauenswürdige Ergebnisse geht.


Technischer Zugang und Open-Weight-Veröffentlichung

In einer Branche, in der geschlossene Modelle zunehmend die Norm sind, ist DeepSeeks Entscheidung, den Prover-V2 sowohl in 7B- als auch in 671B-Konfigurationen als Open-Weight zu veröffentlichen, bemerkenswert. Sie lädt zur globalen Zusammenarbeit und zum Experimentieren ein – insbesondere in den Bereichen Bildung, Forschung und Toolchain-Entwicklung für Lean 4.

Beide Modelle sind auf Hugging Face verfügbar und lassen sich einfach über Transformers integrieren. Das größere 671B-Modell spiegelt die DeepSeek-V3-Architektur wider und bietet bis zu 32K Kontextlänge und Inferenz-fähige Leistung.

Die Beispielinferenz umfasst die vollständige Lean 4-Codeerzeugung, einschließlich:

  • Theoremsformulierung
  • Beweisplanerstellung
  • Formale Beweisausführung mit Lean-Syntax

Warum die Zukunft der KI formal sein könnte

Zusammenfassend lässt sich sagen, dass es bei DeepSeek-Prover-V2 nicht darum geht, zum Spaß Lehrbuchaufgaben zu lösen. Es geht darum, das Verifikationsproblem der KI zu lösen – ein formaler Beweis nach dem anderen.

Wichtige Erkenntnisse:

  • Die rekursive Beweissynthese ermöglicht ein skalierbares Kaltstart-Lernen
  • Das Modell verbindet informelles LLM-Denken mit formaler Beweisstruktur
  • Es übertrifft frühere Modelle bei wichtigen mathematischen Benchmarks
  • Es führt einen neuen, offenen Benchmark für zukünftige Bewertungen ein (ProverBench)
  • Es signalisiert eine umfassendere AGI-Strategie, die sich auf überprüfbare Intelligenz konzentriert

Für KI-Investoren, Forschungslabore und fortgeschrittene Engineering-Teams ist DeepSeeks Arbeit zum formalen Theorembeweisen möglicherweise das bisher deutlichste Signal dafür, wohin die nächste Generation der KI-Fähigkeiten geht – nicht hin zu breiteren Gesprächen, sondern hin zu tieferem, beweisbarem Denken.

Der kommende DeepSeek R2: Ein formidabler neuer Konkurrent in der KI

DeepSeek R2, das kommende KI-Modell des chinesischen Technologieunternehmens DeepSeek, ist mit seinen beeindruckenden Spezifikationen und Kostenvorteilen bereit, die westliche KI-Dominanz herauszufordern. R2, dessen Veröffentlichung für Anfang Mai 2025 erwartet wird, soll über eine hybride Mixture-of-Experts-Architektur mit 1,2 Billionen Parametern verfügen – doppelt so viele wie sein Vorgänger. Gerüchten zufolge wurde das Modell mit Huawei Ascend 910B-Chipclustern auf 5,2 Petabyte Daten trainiert und erreicht eine bemerkenswerte Recheneffizienz von 512 PetaFLOPS bei 82 % Hardwareauslastung.

Zu den erwarteten Fähigkeiten von R2 gehören verbessertes Denken, multimodale Unterstützung für Bilder und Videos, fortschrittliche Programmierfähigkeiten und erweiterte mehrsprachige Unterstützung über die chinesischen und englischen Fähigkeiten von R1 hinaus. Am disruptivsten ist vielleicht DeepSeeks berichteter Kostenvorteil – R2 soll 97,3 % billiger in der Herstellung sein als OpenAIs GPT-4o, wobei die Unternehmenspreise voraussichtlich nur 0,07 US-Dollar pro Million Eingabe-Token betragen. Diese Kosteneffizienz, kombiniert mit einer vergleichbaren oder potenziell überlegenen Leistung gegenüber führenden westlichen Modellen, positioniert DeepSeek R2 als einen bedeutenden Herausforderer in der globalen KI-Landschaft. Obwohl diese Spezifikationen bis zur offiziellen Veröffentlichung weitgehend unbestätigt bleiben, beobachtet die KI-Community die Entwicklung genau, während sich DeepSeek darauf vorbereitet, sein Modell der nächsten Generation vorzustellen.

Das könnte Ihnen auch gefallen

Dieser Artikel wurde von unserem Benutzer gemäß den Regeln und Richtlinien für die Einreichung von Nachrichten. Das Titelbild ist computererzeugte Kunst nur zu illustrativen Zwecken; nicht indikativ für den tatsächlichen Inhalt. Wenn Sie glauben, dass dieser Artikel gegen Urheberrechte verstößt, zögern Sie bitte nicht, dies zu melden, indem Sie uns eine E-Mail senden. Ihre Wachsamkeit und Zusammenarbeit sind unschätzbar, um eine respektvolle und rechtlich konforme Community aufrechtzuerhalten.

Abonnieren Sie unseren Newsletter

Erhalten Sie das Neueste aus dem Unternehmensgeschäft und der Technologie mit exklusiven Einblicken in unsere neuen Angebote

Wir verwenden Cookies auf unserer Website, um bestimmte Funktionen zu ermöglichen, Ihnen relevantere Informationen bereitzustellen und Ihr Erlebnis auf unserer Website zu optimieren. Weitere Informationen finden Sie in unserer Datenschutzrichtlinie und unseren Nutzungsbedingungen . Obligatorische Informationen finden Sie im Impressum