Künstliche Intelligenz
Kann KI neue Mathe-Erkenntnisse liefern? Spitzenforscher machen den Test
Ob bei komplexen Berechnungen oder logischen Beweisen: Sprachmodelle wie ChatGPT und Gemini gelten mittlerweile als äußerst versiert in Mathematik. Weit weniger gewiss ist bisher, wie sie sich abseits bekannter Pfade schlagen. Sind sie in der Lage, durch eigene Kreativität ungelöste wissenschaftliche Fragestellungen zu bewältigen, oder sind sie nur gut darin, bereits Gelerntes zu reproduzieren?
Weiterlesen nach der Anzeige
Dieser Frage gehen zehn renommierte Mathematiker in einem Experiment nach. Dafür steuerten die Forscher jeweils eine Testfrage aus verschiedenen mathematischen Feldern bei, die ihrer eigenen, noch unveröffentlichten Forschung entspringt. Da es für diese Fragen noch keine Antworten im Netz oder aus anderen Quellen gibt, kann das Sprachmodell zur Lösung nicht auf bereits gelerntes Wissen zugreifen. Das Ziel ist es zu testen, wie weit eine KI über ihre Trainingsdaten hinausgehen und eigene Lösungsansätze entwickeln kann.
Dafür konfrontierte die Gruppe die Sprachmodelle ChatGPT 5.2 Pro von OpenAI sowie Gemini 3.0 Deep Think von Google mit den Forschungsfragen. Den KI-Systemen wurde dabei uneingeschränkter Zugriff auf die Internetsuche gewährt.
Sprachmodelle „wie ein schlechter Student“
In einem Interview mit der New York Times teilen die Forscher erste Eindrücke aus Vorabtests. Der Mathematiker Martin Hairer ist zwar beeindruckt davon, wie sicher und korrekt die KI eine Reihe bekannter Argumente samt dazwischenliegenden Berechnungen aneinanderreihen kann. Geht es jedoch darum, echte Forschungsarbeit zu leisten, bietet sich ein anderes Bild: Die Versuche der KI wirken laut Hairer wie die Arbeit eines schlechten Studenten, der zwar ungefähr wisse, wo er anfangen müsse und wo er hinwolle, aber keine wirkliche Ahnung habe, wie er dorthin gelangen solle.
„Ich habe bisher kein plausibles Beispiel dafür gesehen, dass ein Sprachmodell eine wirklich neue Idee oder ein grundlegend neues Konzept hervorgebracht hat“, sagt der Träger der Fields-Medaille, der prestigeträchtigsten Auszeichnung in der Mathematik. Hairer glaubt daher, dass die mathematische Forschung „ziemlich sicher“ vor einer Übernahme durch große Sprachmodelle sei.
Weiterlesen nach der Anzeige
Einige von Hairers Kollegen haben in ihren Tests ähnliche Erfahrungen gemacht. Die Mathematikerin Tamara Kolda, die ebenfalls eine Frage beigesteuert hat, kritisiert, dass die KI keine eigene Meinung besitze und deshalb kein guter Partner für eine echte Zusammenarbeit sei. Ganz im Gegensatz zu ihren menschlichen Kollegen.
Hairer wiederum bemängelt, dass die KI zu selbstsicher auftrete. Es erfordere viel Mühe, sich davon zu vergewissern, ob die Antworten korrekt seien oder nicht. Auch hier dränge sich laut Hairer wieder der Vergleich mit einem Studenten auf, bei dem man nicht genau wisse, ob er wirklich brillant oder nur gut darin sei, „Bullshit“ zu produzieren.
Gegen den Mythos der „gelösten“ Mathematik
Das Experiment versteht sich als Versuch eines unabhängigen und öffentlichen KI-Benchmarks abseits der gängigen Testverfahren großer LLM-Anbieter. Über die rein technische Überprüfung hinaus arbeiten die Wissenschaftler damit auch gegen den Mythos an, dass Mathematik durch KI bereits „gelöst“ sei. Damit wirken sie der Befürchtung entgegen, dass eine akademische Karriere in diesem Bereich für Studierende überflüssig geworden sei.
Die zehn Fragen sind seit letzter Woche im Netz einsehbar. Ziel ist es, dass die Forschungsgemeinschaft mit den Aufgaben experimentieren und sich eine eigene Meinung bilden kann, bevor die Lösungen am 13. Februar veröffentlicht werden.
Damit ist das Experiment allerdings nicht beendet: Nach einer gewissen Reifezeit möchte die Gruppe in ein paar Monaten eine zweite Runde an Aufgaben formulieren. Diese sollen unter Berücksichtigung des eingeholten Feedbacks einen noch objektiveren KI-Benchmark ermöglichen.
(tobe)
Künstliche Intelligenz
Sicherheit im Auto: Euro NCAP verschärfte Bewertungskriterien
Neue Autos werden seit Jahrzehnten vom europäischen Verbraucherschutzprogramm für Fahrzeugtechnik (Euro NCAP) auf ihre Sicherheit hin überprüft. Dabei geht es nicht um die Folgen des Crashs, sondern auch um eine Unfallvermeidung. Die Kriterien für eine gute Bewertung wurden über die Jahre immer wieder verschärft. In diesem Jahr wurden die Anforderungen so stark verändert wie seit 2009 nicht mehr, schreibt der ADAC. Im Kern geht es dabei um vier neue Punkte:
Weiterlesen nach der Anzeige
- eine ablenkungsarme Bedienung
- Wie Assistenten eingreifen
- Unfallschutz bei niedrigen Geschwindigkeiten
- einfache Bergung nach einem Unfallfolgen
Grundfunktionen ohne Umwege
Es gibt in modernen Autos inzwischen viel mehr zu bedienen als vor ein paar Jahrzehnten. Hersteller gehen bei der Bewältigung sehr unterschiedliche Wege, wie wir auch in Testwagen immer wieder feststellen. Will ein Hersteller die vollen fünf Sterne in der Bewertung des Euro NCAP erreichen, müssen einige Funktionen direkt, also ohne Umwege über Untermenüs, zu erreichen sein. Das gilt für Blinker, Warnblinker, Hupe, Scheibenwischer und eCall. Andere Funktionen müssen in maximal zwei Schritten im Untermenü verfügbar sein.
Assistenten unter Beobachtung
Zur Vermeidung von Unfällen schreibt der Gesetzgeber inzwischen einige Systeme vor. Dazu zählen beispielsweise der Spurhalteassistent und die automatische Notbremsung. Künftig müssen solche Systeme in zusätzlichen Szenarien funktionieren. Der ADAC nennt verschiedene Auftreffwinkel, schlechtes Wetter und unterschiedliche Geschwindigkeiten, die künftig bei Tests berücksichtigt werden. Außerdem werde mit überprüft, wie sanft etwa ein Spurhaltehelfer eingreift. In diesem Bereich gibt es tatsächlich große Unterschiede.
Crashtest mit weniger Tempo
Neu eingeführt wird auch ein zusätzlicher Crashtest mit 35 km/h. Der ADAC argumentiert, dass Hersteller Karosserie und Gurtstraffung für höhere Geschwindigkeiten auslegen. Das führe dazu, dass unter Umständen bei einem Unfall mit 35 km/h höhere Kräfte wirken könnten als bei 50 km/h. Dies habe man bei der Untersuchung mit einem MG3 (Fahrbericht) im vergangenen Jahr herausgefunden. Mit adaptiven Systemen, die sich auf Tempo und Gewicht der Personen einstellen können, sinkt die Belastung bei einem Unfall. Zusätzlich sollen Dummies, die unterschiedlich groß und schwer sind, auf verschiedenen Positionen im Fahrzeug gesetzt werden, um die Anforderungen weiter zu erhöhen. Computersimulierte Crashs mit digitalen Modellen sollen die Tests mit Dummies ergänzen.
Weiterlesen nach der Anzeige
Türgriffe, die immer funktionieren müssen
China hat gerade bekannt gegeben, dass neu homologierte Autos ab 2027 keine motorisierten, versenkbaren Griffe mehr haben dürfen. Auch wir haben das in zahlreichen Testwagen immer wieder kritisiert. Ein Verbot ist in der EU noch nicht in Sicht, zumindest werden aber die Bewertungskriterien beim Euro NCAP auch in diesem Punkt verschärft, wobei das eigentlich selbstverständlich sein sollte: Elektrische Türgriffe und Kofferraumklappen müssen nach einem Aufprall noch funktionieren. Volvo hat im EX60 nach eigenem Bekunden für die Türöffnung mehrere voneinander unabhängige Stromkreise gelegt.
Wie ein Helfer nach einem Unfall bei manch einem Modell eine Tür über einen Griff aufbekommen soll, der schon unbeschädigt schlecht zu bedienen ist, fließt übrigens seit Jahren in die Bewertungen mit ein. Für eine volle Punktzahl, und auch das fließt erst ab sofort beim Euro NCAP mit ein, werden unter anderem die Verfügbarkeit von Rettungskarten und die Funktion des eCall-Systems mit bewertet. Elektroautos müssen zusätzlich die Traktionsbatterie isolieren und über einen Widerstand gegen eine Überhitzung des Akkus verfügen.
Erhöhter Aufwand
Die vier neuen, zusätzlichen Bewertungskriterien machen es einerseits für die Hersteller deutlich schwieriger, die maximal erreichbaren fünf Sterne zu erhalten. Auf der anderen Seite erhöht das Verbraucherschutzprogramm für Fahrzeugtechnik den Aufwand beträchtlich. Ein Teil der Tests wird künftig über Simulationen abgewickelt werden, doch für vieles bleibt nur der reale Versuch am Kandidaten. Für Verbraucher ist es ein gutes Zeichen, wenn sich die Ersteller von solchen Bewertungskriterien beispielsweise darum sorgen, dass ein zu harsches Eingreifen von Spurhalteassistenten die Akzeptanz beim Fahrer senken.
Mehr zu Assistenzsystemen im Auto
(mfz)
Künstliche Intelligenz
Software Testing: Software-Engineering von morgen
In dieser Episode sprechen Richard Seidl und Ina Schieferdecker über Next-Gen Software Engineering und Qualität im KI-Zeitalter. Schieferdecker plädiert für Shift-left und klare Testspezifikationen. Das Duo diskutiert, wie Low-Code und No-Code das modellbasierte Arbeiten stärken. Ina Schieferdecker warnt vor durchgewunkenem Code und stellt die Idee eines Model-Bus vor, der Anforderungen, Architektur, Tests und Ausführung über Werkzeuge synchron hält.
Weiterlesen nach der Anzeige
Über Ina Schieferdecker
Prof. Dr.-Ing. Ina Schieferdecker ist unabhängige Forscherin und Honorarprofessorin für Softwarebasierte Innovationen an der Technischen Universität Berlin. Sie ist Mitglied der Deutschen Akademie der Technikwissenschaften (acatech) und Ehrenmitglied des German Testing Board e. V. (GTB) sowie aktiv im International Software Testing Qualifications Board. Darüber hinaus ist sie Präsidiumsmitglied der Gesellschaft für Informatik sowie Vorstandsmitglied von Informatics Europe. Ihre Forschungsinteressen umfassen Software Quality Engineering, offene Datenplattformen und die Twin-Transformation von Digitalisierung und Nachhaltigkeit. Sie ist u.a. Preisträgerin des Deutschen Preises für Software-Qualität des ASQF, der GI-TAV und des GTB.
(Bild: TechSolution)

Der betterCode() GenAI Summit zeigt alle Aspekte der KI-gestützten Softwareentwicklung von geeigneten Tools über praktische Anwendungen bis zu den Auswirkungen auf Entwicklungsteams.
Das Programm des betterCode() GenAI Summit behandelt aktuelle Tools, Best Practices und Möglichkeiten, aber auch die Risiken und rechtlichen Rahmenbedingungen KI-gestützter Softwareentwicklung. Unter anderem gibt es Vorträge zu folgenden Themen:
- Coding Agents im Praxiseinsatz: Auswahl und Orchestrierung
- KI in der Praxis: Strategien zur Modernisierung komplexer Legacy-Systeme
- Spec-Driven Development: Das Ende des Vibe Coding
- Sicherheitsnetze für den sicheren Einsatz von Coding-Agenten
- KI-generierter Code zwischen Effizienzgewinn und Rechtsrisiko
- Design Patterns für das Zeitalter der Agenten
Bis zum 21. April sind die Tickets zum vergünstigten Frühbuchertarif von 999 Euro (zzgl. 19 % MwSt.) verfügbar.
Bei diesem Podcast dreht sich alles um Softwarequalität: Ob Testautomatisierung, Qualität in agilen Projekten, Testdaten oder Testteams – Richard Seidl und seine Gäste schauen sich Dinge an, die mehr Qualität in die Softwareentwicklung bringen.
Die aktuelle Ausgabe ist auch auf Richard Seidls Blog verfügbar: „Software-Engineering von morgen – Ina Schieferdecker“ und steht auf YouTube bereit.
Weiterlesen nach der Anzeige
(mdo)
Künstliche Intelligenz
Autark im Ernstfall: Fünf Notfallradios mit Kurbel- und Solarladung im Test
Angesichts steigender Blackout-Sorgen gewinnen Notfallradios erneut an Bedeutung. Über UKW oder DAB+ sollen sie auch dann wichtige Informationen bereitstellen, wenn die Stromversorgung und das Internet ausfallen. Neben großen, fest eingebauten Akkus und Batteriefächern verfügen sie auch über Solarzellen. Zur Not lässt sich zudem eine Kurbel ausklappen, um durch rhythmische Drehungen selbst mechanisch Strom zu erzeugen – Muskelkater inklusive. Auch das Bundesamt für Bevölkerungsschutz und Katastrophenhilfe (BBK) empfiehlt, ein vom Stromnetz unabhängiges Radio für den Krisenfall bereitzuhalten.
In unserem Vergleichstest von fünf Notfallradios überprüfen wir, wie gut die Notladung in der Praxis funktioniert. Dabei zeigte sich, dass das Kurbeln nur bei manchen Exemplaren wirklich Sinn ergibt. Auch als Powerbank taugen nicht alle Geräte. Beim Empfang, der Klangqualität, den Anschlüssen und der Nutzung als Taschenlampe (meist mit kaltem Licht) zeigten sich im Test ebenfalls erstaunlich große Unterschiede. Im Ernstfall bringen zwar alle Exemplare Licht in die dunkle Wohnung, doch die Umsetzung reicht von einem schmalen Lichtstrahl bis hin zu bequem ausklappbaren Leselampen oder einer praktischen Elektrolaterne mit Tragegriff.
- Wenn Stromnetz und Mobilfunk ausfallen, bleibt Radio oft die letzte Informationsquelle – idealerweise autark mit Kurbel- oder Solarladung.
- Wir haben fünf Notfallradios getestet, die auch als Taschenlampe, Powerbank und bei manchen Modellen auch als Bluetooth-Lautsprecher dienen.
- Der ausführliche Test zeigt, welche Konzepte im Ernstfall überzeugen und wo die Grenzen dieser Multifunktionsgeräte liegen.
In diesem Artikel überprüfen wir, ob sich ein teures Premiumgerät wie das Sangean MMR-99 lohnt oder ob ein kleines Schnäppchen von Bewinner sogar länger durchhält. Darüber hinaus testen wir einige Geräte aus dem mittleren Preissegment: das Libovgogo DF-585, das Mesqool 1030DAB und das Fospower D8.
Das war die Leseprobe unseres heise-Plus-Artikels „Autark im Ernstfall: Fünf Notfallradios mit Kurbel- und Solarladung im Test“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
-
Entwicklung & Codevor 3 MonatenKommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac
-
Künstliche Intelligenzvor 1 MonatSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Apps & Mobile Entwicklungvor 3 MonatenHuawei Mate 80 Pro Max: Tandem-OLED mit 8.000 cd/m² für das Flaggschiff-Smartphone
-
Apps & Mobile Entwicklungvor 3 MonatenFast 5 GB pro mm²: Sandisk und Kioxia kommen mit höchster Bitdichte zum ISSCC
-
Entwicklung & Codevor 2 MonatenKommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren
-
Datenschutz & Sicherheitvor 2 MonatenSyncthing‑Fork unter fremder Kontrolle? Community schluckt das nicht
-
Social Mediavor 2 MonatenDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
-
Künstliche Intelligenzvor 3 MonatenWeiter billig Tanken und Heizen: Koalition will CO₂-Preis für 2027 nicht erhöhen
