wissen.de Artikel
Was die neue KI von „DeepSeek“ so besonders macht
Ein neues Großes Sprachmodell (LLM) der chinesischen Firma „DeepSeek“ sorgt aktuell weltweit für Aufsehen. „DeepSeek R1“ hat sich seit seiner Veröffentlichung Anfang Januar an die Spitze der App-Charts vorgekämpft und macht damit großen Playern wie OpenAI (ChatGPT) Konkurrenz. Auch die Leistungen von DeepSeek R1 sind denen der besten westlichen KI-Modelle nahezu ebenbürtig.
Bessere Leistungen dank „Reasoning“
Bei R1 handelt es sich – ähnlich wie bei GPT-o1 von OpenAI – um ein sogenanntes Reasoning-Modell. Dieses kann menschliche Sprache verstehen und auch selbst generieren, gibt auf gestellte Antworten allerdings deutlich bessere Antworten. Der Grund: Reasoning-Modelle zerlegen die ihnen gestellten Aufgaben in mehrere Schritte und testen dann mehrere Lösungsansätze intern aus, bevor sie ihre endgültige Antwort geben.
„Wenn man diesen Modellen die Zeit dafür gibt, sind sie in der Lage, verschiedene Lösungsansätze zu formulieren und diese nach Reflektion auch wieder zu verwerfen, um somit die optimale Lösung zu finden“, erklärt Paul Röttger von der Wirtschaftsuniversität Luigi Bocconi in Mailand. „‚Reasoning Models‘ zeigen ihre Stärke vor allem bei der Lösung komplexer Probleme in der Programmierung, Mathematik, und den Naturwissenschaften, über die auch Menschen in der Regel länger nachdenken müssten.“
Doch was macht R1 von DeepSeek im Kreise der ohnehin „elitären“ Reasoning-Modelle so besonders? Führende deutsche KI-Experten erklären den Hype.
Frei verfügbar und günstig
„DeepSeek selber ist relativ neu in der LLM-Branche und war lange etwas unscheinbar im Vergleich zu anderen chinesischen KI-Giganten wie zum Beispiel Alibaba, die auch mehr mit der Regierung vernetzt sind. Sie sind aber schon im vergangenen Jahr mit innovativen Forschungsergebnissen aufgefallen, die sie – im Vergleich zu amerikanischen Firmen wie OpenAI und Anthropic – öffentlich verfügbar gemacht haben“, berichtet Jonas Geiping vom Max-Planck-Institut für Intelligente Systeme in Stuttgart. „Mit ihrer R1-Verbesserung haben sie aber ihr Modell jetzt plötzlich an die Spitze der weltweiten Benchmarks katapultiert, und – im Gegensatz zu anderen Firmen – haben sie das Modell frei zum Download verfügbar gemacht.“ Es kann damit von jedem genutzt und auf die eigenen Zwecke angepasst werden.
Doch auch technisch bietet DeepSeek R1 mehrere Innovationen. So lässt sich das Modell nach Entwicklerangaben zum Beispiel besonders effizient und ressourcenarm trainieren. Laut DeepSeek beliefen sich die Trainingskosten so auf „gerade einmal“ 5,6 Millionen US-Dollar. Zum Vergleich: Ähnlich leistungsfähige KI-Modelle von OpenAI oder Google benötigten zwischen 100 Millionen und einer Milliarde US-Dollar für ihr Training. Noch muss zwar überprüft werden, ob die Angaben von DeepSeek tatsächlich stimmen, doch weit hergeholt sind sie laut Experten nicht.

Ein digitales Kaufhaus
Parallel zu seinem kostengünstigen Training soll R1 auch während der Anwendung deutlich weniger Rechenressourcen und Energie verbrauchen als andere Modelle. Möglich wird das durch eine sogenannte „Mixture-of-Experts“ (MoE)-Architektur. „Man kann sich MoE als ein großes Kaufhaus mit verschiedenen Abteilungen – Elektronik, Kleidung, Bücher, Lebensmittel – vorstellen. Statt dass ein Verkäufer alles wissen muss, gibt es in jeder Abteilung spezialisierte Experten: Eine Technikerin berät zu Laptops, ein Modeberater hilft bei der Kleiderwahl, und ein Buchhändler empfiehlt spannende Romane. Statt dass ein einzelnes Modell alle Anfragen beantwortet, entscheidet es je nach Aufgabe, welche spezialisierten ‚Experten‘ (Teilnetze) aktiviert werden. Das kann beim Lernen und beim Antworten Rechenleistung sparen“, erklärt Kristian Kersting von der Technischen Universität Darmstadt.
Während es an DeepSeek R1 einiges zu loben und gar zu bestaunen gibt, ist das Sprachmodell allerdings nicht frei von Kritik. So ist zwar ein Großteil davon frei im Internet verfügbar, doch ein entscheidender Teil fehlt: die Trainingsdaten und der Trainingscode. Diese wären allerdings essenziell, um die volle Funktionsweise von R1 nachvollziehen zu können. Zudem ist das Sprachmodell von chinesischer Zensur geprägt. Fragt man es nach kritischen Themen zur chinesischen Politik wie beispielsweise dem Massaker am Tian'anmen-Platz im Jahr 1989, antwortet es: „Tut mir leid, das würde meinen Rahmen sprengen. Lassen Sie uns über etwas anderes reden.“ Den unabhängigen Inselstaat Taiwan bezeichnet die chinesische KI außerdem als Teil von China.
Kann Europa doch noch aufholen?
So oder so könnte R1 nun jedoch den Fortschritt der Künstlichen Intelligenz beschleunigen und für neue Innovationen sorgen. Auch im bislang eher abgehängten Europa: „Durch die Veröffentlichung von DeepSeek-R1 wird klar, dass die Dominanz der US-amerikanischen Modelle doch nicht so groß ist, wie alle gedacht haben. Auch Europa hätte die Rechenkapazitäten – zum Beispiel in Jülich mit den 24.000 GPUs, die bald verfügbar sind –, um auf Basis des veröffentlichten Konzeptes und der sowieso verfügbaren Daten ein eigenes Modell zu trainieren und damit unabhängig die weitere Entwicklung von LLMs zu bestimmen“, sagt Andreas Hotho von der Julius-Maximilians-Universität Würzburg.
„In den letzten Jahren sind durch bundesweite, aber auch bayrische KI-Programme sehr viele talentierte KI-Wissenschaftlerinnen und -Wissenschaftler nach Deutschland geholt worden. Man wäre also heute in Europa beziehungsweise sogar in Deutschland grundsätzlich in der Lage, ein eigenes LLM zu trainieren und sich von den bestehenden Abhängigkeiten zu lösen“, so Hotho weiter.