Künstliche Intelligenz
Kann KI neue Mathe-Erkenntnisse liefern? Spitzenforscher machen den Test
Ob bei komplexen Berechnungen oder logischen Beweisen: Sprachmodelle wie ChatGPT und Gemini gelten mittlerweile als äußerst versiert in Mathematik. Weit weniger gewiss ist bisher, wie sie sich abseits bekannter Pfade schlagen. Sind sie in der Lage, durch eigene Kreativität ungelöste wissenschaftliche Fragestellungen zu bewältigen, oder sind sie nur gut darin, bereits Gelerntes zu reproduzieren?
Weiterlesen nach der Anzeige
Dieser Frage gehen zehn renommierte Mathematiker in einem Experiment nach. Dafür steuerten die Forscher jeweils eine Testfrage aus verschiedenen mathematischen Feldern bei, die ihrer eigenen, noch unveröffentlichten Forschung entspringt. Da es für diese Fragen noch keine Antworten im Netz oder aus anderen Quellen gibt, kann das Sprachmodell zur Lösung nicht auf bereits gelerntes Wissen zugreifen. Das Ziel ist es zu testen, wie weit eine KI über ihre Trainingsdaten hinausgehen und eigene Lösungsansätze entwickeln kann.
Dafür konfrontierte die Gruppe die Sprachmodelle ChatGPT 5.2 Pro von OpenAI sowie Gemini 3.0 Deep Think von Google mit den Forschungsfragen. Den KI-Systemen wurde dabei uneingeschränkter Zugriff auf die Internetsuche gewährt.
Sprachmodelle „wie ein schlechter Student“
In einem Interview mit der New York Times teilen die Forscher erste Eindrücke aus Vorabtests. Der Mathematiker Martin Hairer ist zwar beeindruckt davon, wie sicher und korrekt die KI eine Reihe bekannter Argumente samt dazwischenliegenden Berechnungen aneinanderreihen kann. Geht es jedoch darum, echte Forschungsarbeit zu leisten, bietet sich ein anderes Bild: Die Versuche der KI wirken laut Hairer wie die Arbeit eines schlechten Studenten, der zwar ungefähr wisse, wo er anfangen müsse und wo er hinwolle, aber keine wirkliche Ahnung habe, wie er dorthin gelangen solle.
„Ich habe bisher kein plausibles Beispiel dafür gesehen, dass ein Sprachmodell eine wirklich neue Idee oder ein grundlegend neues Konzept hervorgebracht hat“, sagt der Träger der Fields-Medaille, der prestigeträchtigsten Auszeichnung in der Mathematik. Hairer glaubt daher, dass die mathematische Forschung „ziemlich sicher“ vor einer Übernahme durch große Sprachmodelle sei.
Weiterlesen nach der Anzeige
Einige von Hairers Kollegen haben in ihren Tests ähnliche Erfahrungen gemacht. Die Mathematikerin Tamara Kolda, die ebenfalls eine Frage beigesteuert hat, kritisiert, dass die KI keine eigene Meinung besitze und deshalb kein guter Partner für eine echte Zusammenarbeit sei. Ganz im Gegensatz zu ihren menschlichen Kollegen.
Hairer wiederum bemängelt, dass die KI zu selbstsicher auftrete. Es erfordere viel Mühe, sich davon zu vergewissern, ob die Antworten korrekt seien oder nicht. Auch hier dränge sich laut Hairer wieder der Vergleich mit einem Studenten auf, bei dem man nicht genau wisse, ob er wirklich brillant oder nur gut darin sei, „Bullshit“ zu produzieren.
Gegen den Mythos der „gelösten“ Mathematik
Das Experiment versteht sich als Versuch eines unabhängigen und öffentlichen KI-Benchmarks abseits der gängigen Testverfahren großer LLM-Anbieter. Über die rein technische Überprüfung hinaus arbeiten die Wissenschaftler damit auch gegen den Mythos an, dass Mathematik durch KI bereits „gelöst“ sei. Damit wirken sie der Befürchtung entgegen, dass eine akademische Karriere in diesem Bereich für Studierende überflüssig geworden sei.
Die zehn Fragen sind seit letzter Woche im Netz einsehbar. Ziel ist es, dass die Forschungsgemeinschaft mit den Aufgaben experimentieren und sich eine eigene Meinung bilden kann, bevor die Lösungen am 13. Februar veröffentlicht werden.
Damit ist das Experiment allerdings nicht beendet: Nach einer gewissen Reifezeit möchte die Gruppe in ein paar Monaten eine zweite Runde an Aufgaben formulieren. Diese sollen unter Berücksichtigung des eingeholten Feedbacks einen noch objektiveren KI-Benchmark ermöglichen.
(tobe)