Künstliche Intelligenz
ChatGPT als Arzt-Ersatz? Studie zeigt ernüchternde Ergebnisse
Große Sprachmodelle wie GPT-4o erreichen bei medizinischen Wissenstests inzwischen nahezu perfekte Ergebnisse. Sie bestehen die US-Ärzte-Zulassungsprüfung, fassen Patientenakten zusammen und können Symptome einordnen. Gesundheitsbehörden weltweit prüfen deshalb, ob KI-Chatbots als erste Anlaufstelle für Patienten dienen könnten – eine Art „neue Eingangstür zum Gesundheitssystem“, wie es in einem Strategiepapier des britischen NHS heißt.
Weiterlesen nach der Anzeige
Doch die Studie „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study“ von Forschern der Universität Oxford dämpft diese Hoffnungen erheblich. Die Arbeit erscheint im Fachjournal Nature Medicine, eine Vorabversion ist auf arXiv verfügbar. Das zentrale Ergebnis: Das klinische Wissen der Modelle lässt sich nicht auf die Interaktion mit echten Menschen übertragen.
1298 Teilnehmer, zehn medizinische Szenarien
Für die randomisierte, kontrollierte Studie rekrutierten die Forscher 1298 Teilnehmer aus Großbritannien. Jeder Proband erhielt eines von zehn alltagsnahen medizinischen Szenarien – etwa plötzliche starke Kopfschmerzen, Brustschmerzen in der Schwangerschaft oder blutigen Durchfall. Die Aufgabe: Einschätzen, welche Erkrankung vorliegen könnte und ob ein Arztbesuch, die Notaufnahme oder gar ein Krankenwagen nötig ist.
Die Teilnehmer wurden zufällig in vier Gruppen eingeteilt. Drei Gruppen erhielten Zugang zu je einem KI-Modell, das zu Studienbeginn aktuell war – GPT-4o, Llama 3 oder Command R+. Die Kontrollgruppe durfte beliebige Hilfsmittel nutzen, etwa eine Internetsuche.
KI allein brilliert – mit Menschen versagt sie
Weiterlesen nach der Anzeige
Die Ergebnisse offenbaren eine bemerkenswerte Diskrepanz. Ohne menschliche Beteiligung identifizierten selbst die inzwischen nicht mehr aktuellen Sprachmodelle in 94,9 Prozent der Fälle mindestens eine relevante Erkrankung. Bei der Frage nach der richtigen Handlungsempfehlung – Selbstbehandlung, Hausarzt, Notaufnahme oder Rettungswagen – lagen sie im Schnitt in 56,3 Prozent der Fälle richtig.
Sobald jedoch echte Menschen die Modelle befragten, brachen die Werte ein. Teilnehmer mit KI-Unterstützung erkannten relevante Erkrankungen nur in maximal 34,5 Prozent der Fälle – signifikant schlechter als die Kontrollgruppe mit 47 Prozent. Bei der Wahl der richtigen Handlung schnitten alle Gruppen gleich ab: rund 43 Prozent Trefferquote, unabhängig davon, ob ein Chatbot half oder nicht.
Doppeltes Kommunikationsversagen
Die Forscher analysierten die Chat-Protokolle zwischen Nutzern und KI-Modellen, um die Ursachen zu verstehen. Sie identifizierten zwei zentrale Schwachstellen: Erstens gaben die Teilnehmer den Modellen oft unvollständige Informationen. Zweitens verstanden die Nutzer die Antworten der KI nicht richtig – obwohl die Modelle in 65 bis 73 Prozent der Fälle mindestens eine korrekte Diagnose nannten, übernahmen die Teilnehmer diese nicht zuverlässig.
Dr. Anne Reinhardt von der LMU München sieht hier eine grundsätzliche Schere: „Viele Menschen vertrauen KI-Antworten auf Gesundheitsfragen schnell, weil sie leicht zugänglich sind. Sie klingen auch sprachlich sehr überzeugend – selbst dann, wenn der Inhalt eigentlich medizinisch absolut falsch ist.“
Benchmarks führen in die Irre
Die Forscher verglichen die Leistung der Modelle auf dem MedQA-Benchmark – einem Standardtest mit Fragen aus Ärzte-Prüfungen – mit den Ergebnissen der Nutzerstudie. In 26 von 30 Fällen schnitten die Modelle bei den Multiple-Choice-Fragen besser ab als bei der Interaktion mit echten Menschen. Selbst Benchmark-Werte von über 80 Prozent korrespondierten teilweise mit Nutzer-Ergebnissen unter 20 Prozent.
Prof. Ute Schmid von der Universität Bamberg ordnet die hohe Leistung der Modelle „allein“ kritisch ein: „Etwas irreführend finde ich die Aussage, dass die Performanz der Sprachmodelle ‚alleine‘ deutlich höher ist als bei den Nutzenden. In diesem Fall wurden die Anfragen vermutlich von fachlich und mit LLMs erfahrenen Personen formuliert.“
Was müsste ein medizinischer Chatbot können?
Die Experten sind sich einig, dass spezialisierte medizinische Chatbots anders gestaltet werden müssten als heutige Allzweck-Modelle. Prof. Kerstin Denecke von der Berner Fachhochschule formuliert die Anforderungen: „Ein medizinisch spezialisierter Chatbot müsste evidenzbasierte, aktuelle Informationen bieten. Außerdem müsste er Notfallsituationen zuverlässig erkennen, individuelle Risikofaktoren berücksichtigen und transparent seine Grenzen kommunizieren. Er sollte eine strukturierte Anamnese erheben, um zuverlässig triagieren zu können. Und er sollte sich nicht dazu hinreißen lassen, eine Diagnose zu stellen.“
Die Hürden für einen solchen Einsatz seien allerdings erheblich, so Denecke: „Große Hürden sind zum einen die Regulierung – je nach Funktion als Medizinprodukt oder Hochrisiko-KI. Zum anderen sind es die Haftung, der Datenschutz sowie die technische Integration in Versorgungsprozesse.“
Tests mit echten Nutzern unerlässlich
Die Schlussfolgerung der Oxford-Forscher ist eindeutig: Bevor KI-Systeme im Gesundheitswesen eingesetzt werden, müssten sie mit echten Nutzern getestet werden – nicht nur mit Prüfungsfragen oder simulierten Gesprächen. Schmid plädiert für einen differenzierten Ansatz: „Qualitätsgeprüfte Chatbots könnten beispielsweise über die gesetzlichen Krankenkassen angeboten und von Hausarztpraxen als Erstzugang empfohlen werden. Allerdings sollten Menschen nicht gezwungen werden, diese Angebote zu nutzen.“
(mack)
Künstliche Intelligenz
Kann KI neue Mathe-Erkenntnisse liefern? Spitzenforscher machen den Test
Ob bei komplexen Berechnungen oder logischen Beweisen: Sprachmodelle wie ChatGPT und Gemini gelten mittlerweile als äußerst versiert in Mathematik. Weit weniger gewiss ist bisher, wie sie sich abseits bekannter Pfade schlagen. Sind sie in der Lage, durch eigene Kreativität ungelöste wissenschaftliche Fragestellungen zu bewältigen, oder sind sie nur gut darin, bereits Gelerntes zu reproduzieren?
Weiterlesen nach der Anzeige
Dieser Frage gehen zehn renommierte Mathematiker in einem Experiment nach. Dafür steuerten die Forscher jeweils eine Testfrage aus verschiedenen mathematischen Feldern bei, die ihrer eigenen, noch unveröffentlichten Forschung entspringt. Da es für diese Fragen noch keine Antworten im Netz oder aus anderen Quellen gibt, kann das Sprachmodell zur Lösung nicht auf bereits gelerntes Wissen zugreifen. Das Ziel ist es zu testen, wie weit eine KI über ihre Trainingsdaten hinausgehen und eigene Lösungsansätze entwickeln kann.
Dafür konfrontierte die Gruppe die Sprachmodelle ChatGPT 5.2 Pro von OpenAI sowie Gemini 3.0 Deep Think von Google mit den Forschungsfragen. Den KI-Systemen wurde dabei uneingeschränkter Zugriff auf die Internetsuche gewährt.
Sprachmodelle „wie ein schlechter Student“
In einem Interview mit der New York Times teilen die Forscher erste Eindrücke aus Vorabtests. Der Mathematiker Martin Hairer ist zwar beeindruckt davon, wie sicher und korrekt die KI eine Reihe bekannter Argumente samt dazwischenliegenden Berechnungen aneinanderreihen kann. Geht es jedoch darum, echte Forschungsarbeit zu leisten, bietet sich ein anderes Bild: Die Versuche der KI wirken laut Hairer wie die Arbeit eines schlechten Studenten, der zwar ungefähr wisse, wo er anfangen müsse und wo er hinwolle, aber keine wirkliche Ahnung habe, wie er dorthin gelangen solle.
„Ich habe bisher kein plausibles Beispiel dafür gesehen, dass ein Sprachmodell eine wirklich neue Idee oder ein grundlegend neues Konzept hervorgebracht hat“, sagt der Träger der Fields-Medaille, der prestigeträchtigsten Auszeichnung in der Mathematik. Hairer glaubt daher, dass die mathematische Forschung „ziemlich sicher“ vor einer Übernahme durch große Sprachmodelle sei.
Weiterlesen nach der Anzeige
Einige von Hairers Kollegen haben in ihren Tests ähnliche Erfahrungen gemacht. Die Mathematikerin Tamara Kolda, die ebenfalls eine Frage beigesteuert hat, kritisiert, dass die KI keine eigene Meinung besitze und deshalb kein guter Partner für eine echte Zusammenarbeit sei. Ganz im Gegensatz zu ihren menschlichen Kollegen.
Hairer wiederum bemängelt, dass die KI zu selbstsicher auftrete. Es erfordere viel Mühe, sich davon zu vergewissern, ob die Antworten korrekt seien oder nicht. Auch hier dränge sich laut Hairer wieder der Vergleich mit einem Studenten auf, bei dem man nicht genau wisse, ob er wirklich brillant oder nur gut darin sei, „Bullshit“ zu produzieren.
Gegen den Mythos der „gelösten“ Mathematik
Das Experiment versteht sich als Versuch eines unabhängigen und öffentlichen KI-Benchmarks abseits der gängigen Testverfahren großer LLM-Anbieter. Über die rein technische Überprüfung hinaus arbeiten die Wissenschaftler damit auch gegen den Mythos an, dass Mathematik durch KI bereits „gelöst“ sei. Damit wirken sie der Befürchtung entgegen, dass eine akademische Karriere in diesem Bereich für Studierende überflüssig geworden sei.
Die zehn Fragen sind seit letzter Woche im Netz einsehbar. Ziel ist es, dass die Forschungsgemeinschaft mit den Aufgaben experimentieren und sich eine eigene Meinung bilden kann, bevor die Lösungen am 13. Februar veröffentlicht werden.
Damit ist das Experiment allerdings nicht beendet: Nach einer gewissen Reifezeit möchte die Gruppe in ein paar Monaten eine zweite Runde an Aufgaben formulieren. Diese sollen unter Berücksichtigung des eingeholten Feedbacks einen noch objektiveren KI-Benchmark ermöglichen.
(tobe)
Künstliche Intelligenz
Elektroautos: ACC will Batteriewerk in Kaiserslautern nicht mehr bauen
Das Gemeinschaftsunternehmen Automotive Cells Company (ACC) wird die geplante Großfabrik für Traktionsbatterien in Kaiserslautern nun doch nicht errichten. Die schon 2024 aufgeschobenen Planungen für die Standorte in Deutschland und Italien rechnen sich inzwischen nicht mehr, wie aus einer Stellungnahme des Gemeinschaftsunternehmens der Konzerne Stellantis, Mercedes-Benz und Total Energies hervorgeht. Der Standort Billy-Bercleau/Douvrin in Frankreich solle als „primärer Innovationshub“ bestehen bleiben.
Weiterlesen nach der Anzeige
Hintergrund ist die anhaltend schwache Nachfrage nach Elektroautos in Europa sowie der massive Kurseinbruch bei Stellantis. Der Volkswagen-Konkurrent gab in der vergangenen Woche Abschreibungen in Höhe von 22,2 Milliarden Euro bekannt und erlitt an der Börse einen beispiellosen Kurssturz.
Subventionen waren bereits zugesagt
Am Standort der Stellantis-Tochter Opel in Kaiserslautern sollten rund 2000 Arbeitsplätze entstehen. Deutschland und Frankreich sagten der ACC Fördermittel in Höhe von 1,3 Milliarden Euro zu. Allein das deutsche Werk sollte mit Steuergeld in Höhe von rund 437 Millionen Euro unterstützt werden. Einen entsprechenden Förderbescheid überreichten der damalige Bundeswirtschaftsminister Peter Altmaier (CDU) und die rheinland-pfälzische Ministerpräsidentin Malu Dreyer (SPD) bereits.
Wie beim Partnerprojekt im italienischen Termoli will ACC nun mit den Gewerkschaften über die Einstellung der Projekte sprechen. Der Frankfurter IG-Metall-Bezirkschef Jörg Köhlinger bezeichnete das Vorgehen als „irrational und verantwortungslos“. Widerstandsfähige Lieferketten entstünden so nicht. Jahrelang hätten sich Betriebsräte und IG Metall für die Ansiedlung eingesetzt, sagte der Gewerkschafter. „Wir haben innovative tarifliche Regelungen getroffen, mit denen wir dem Unternehmen weit entgegengekommen sind. Und jetzt will ACC den Abgesang einleiten.“
Lesen Sie auch
(fpi)
Künstliche Intelligenz
Fotografieren im Deutschen Meeresmuseum Stralsund: Abtauchen mit der Kamera
Sandra Petrowitz hat ihre Leidenschaften zum Beruf gemacht: Schreiben, Fotografieren und Reisen. Die Journalistin leitet Fotoworkshops und -reisen, ist als Guide auf Expeditionsschiffen in den Polarregionen im Einsatz und arbeitet für Magazine sowie Buchverlage.
-
Entwicklung & Codevor 3 MonatenKommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac
-
Künstliche Intelligenzvor 1 MonatSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Apps & Mobile Entwicklungvor 2 MonatenHuawei Mate 80 Pro Max: Tandem-OLED mit 8.000 cd/m² für das Flaggschiff-Smartphone
-
Apps & Mobile Entwicklungvor 3 MonatenFast 5 GB pro mm²: Sandisk und Kioxia kommen mit höchster Bitdichte zum ISSCC
-
Entwicklung & Codevor 2 MonatenKommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren
-
Datenschutz & Sicherheitvor 2 MonatenSyncthing‑Fork unter fremder Kontrolle? Community schluckt das nicht
-
Social Mediavor 2 MonatenDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
-
Künstliche Intelligenzvor 3 MonatenWeiter billig Tanken und Heizen: Koalition will CO₂-Preis für 2027 nicht erhöhen
