Künstliche Intelligenz

ChatGPT als Arzt-Ersatz? Studie zeigt ernüchternde Ergebnisse


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Große Sprachmodelle wie GPT-4o erreichen bei medizinischen Wissenstests inzwischen nahezu perfekte Ergebnisse. Sie bestehen die US-Ärzte-Zulassungsprüfung, fassen Patientenakten zusammen und können Symptome einordnen. Gesundheitsbehörden weltweit prüfen deshalb, ob KI-Chatbots als erste Anlaufstelle für Patienten dienen könnten – eine Art „neue Eingangstür zum Gesundheitssystem“, wie es in einem Strategiepapier des britischen NHS heißt.

Weiterlesen nach der Anzeige

Doch die Studie „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study“ von Forschern der Universität Oxford dämpft diese Hoffnungen erheblich. Die Arbeit erscheint im Fachjournal Nature Medicine, eine Vorabversion ist auf arXiv verfügbar. Das zentrale Ergebnis: Das klinische Wissen der Modelle lässt sich nicht auf die Interaktion mit echten Menschen übertragen.

Für die randomisierte, kontrollierte Studie rekrutierten die Forscher 1298 Teilnehmer aus Großbritannien. Jeder Proband erhielt eines von zehn alltagsnahen medizinischen Szenarien – etwa plötzliche starke Kopfschmerzen, Brustschmerzen in der Schwangerschaft oder blutigen Durchfall. Die Aufgabe: Einschätzen, welche Erkrankung vorliegen könnte und ob ein Arztbesuch, die Notaufnahme oder gar ein Krankenwagen nötig ist.

Die Teilnehmer wurden zufällig in vier Gruppen eingeteilt. Drei Gruppen erhielten Zugang zu je einem KI-Modell, das zu Studienbeginn aktuell war – GPT-4o, Llama 3 oder Command R+. Die Kontrollgruppe durfte beliebige Hilfsmittel nutzen, etwa eine Internetsuche.

Weiterlesen nach der Anzeige

Die Ergebnisse offenbaren eine bemerkenswerte Diskrepanz. Ohne menschliche Beteiligung identifizierten selbst die inzwischen nicht mehr aktuellen Sprachmodelle in 94,9 Prozent der Fälle mindestens eine relevante Erkrankung. Bei der Frage nach der richtigen Handlungsempfehlung – Selbstbehandlung, Hausarzt, Notaufnahme oder Rettungswagen – lagen sie im Schnitt in 56,3 Prozent der Fälle richtig.

Sobald jedoch echte Menschen die Modelle befragten, brachen die Werte ein. Teilnehmer mit KI-Unterstützung erkannten relevante Erkrankungen nur in maximal 34,5 Prozent der Fälle – signifikant schlechter als die Kontrollgruppe mit 47 Prozent. Bei der Wahl der richtigen Handlung schnitten alle Gruppen gleich ab: rund 43 Prozent Trefferquote, unabhängig davon, ob ein Chatbot half oder nicht.

Die Forscher analysierten die Chat-Protokolle zwischen Nutzern und KI-Modellen, um die Ursachen zu verstehen. Sie identifizierten zwei zentrale Schwachstellen: Erstens gaben die Teilnehmer den Modellen oft unvollständige Informationen. Zweitens verstanden die Nutzer die Antworten der KI nicht richtig – obwohl die Modelle in 65 bis 73 Prozent der Fälle mindestens eine korrekte Diagnose nannten, übernahmen die Teilnehmer diese nicht zuverlässig.

Dr. Anne Reinhardt von der LMU München sieht hier eine grundsätzliche Schere: „Viele Menschen vertrauen KI-Antworten auf Gesundheitsfragen schnell, weil sie leicht zugänglich sind. Sie klingen auch sprachlich sehr überzeugend – selbst dann, wenn der Inhalt eigentlich medizinisch absolut falsch ist.“

Die Forscher verglichen die Leistung der Modelle auf dem MedQA-Benchmark – einem Standardtest mit Fragen aus Ärzte-Prüfungen – mit den Ergebnissen der Nutzerstudie. In 26 von 30 Fällen schnitten die Modelle bei den Multiple-Choice-Fragen besser ab als bei der Interaktion mit echten Menschen. Selbst Benchmark-Werte von über 80 Prozent korrespondierten teilweise mit Nutzer-Ergebnissen unter 20 Prozent.

Prof. Ute Schmid von der Universität Bamberg ordnet die hohe Leistung der Modelle „allein“ kritisch ein: „Etwas irreführend finde ich die Aussage, dass die Performanz der Sprachmodelle ‚alleine‘ deutlich höher ist als bei den Nutzenden. In diesem Fall wurden die Anfragen vermutlich von fachlich und mit LLMs erfahrenen Personen formuliert.“

Die Experten sind sich einig, dass spezialisierte medizinische Chatbots anders gestaltet werden müssten als heutige Allzweck-Modelle. Prof. Kerstin Denecke von der Berner Fachhochschule formuliert die Anforderungen: „Ein medizinisch spezialisierter Chatbot müsste evidenzbasierte, aktuelle Informationen bieten. Außerdem müsste er Notfallsituationen zuverlässig erkennen, individuelle Risikofaktoren berücksichtigen und transparent seine Grenzen kommunizieren. Er sollte eine strukturierte Anamnese erheben, um zuverlässig triagieren zu können. Und er sollte sich nicht dazu hinreißen lassen, eine Diagnose zu stellen.“

Die Hürden für einen solchen Einsatz seien allerdings erheblich, so Denecke: „Große Hürden sind zum einen die Regulierung – je nach Funktion als Medizinprodukt oder Hochrisiko-KI. Zum anderen sind es die Haftung, der Datenschutz sowie die technische Integration in Versorgungsprozesse.“

Die Schlussfolgerung der Oxford-Forscher ist eindeutig: Bevor KI-Systeme im Gesundheitswesen eingesetzt werden, müssten sie mit echten Nutzern getestet werden – nicht nur mit Prüfungsfragen oder simulierten Gesprächen. Schmid plädiert für einen differenzierten Ansatz: „Qualitätsgeprüfte Chatbots könnten beispielsweise über die gesetzlichen Krankenkassen angeboten und von Hausarztpraxen als Erstzugang empfohlen werden. Allerdings sollten Menschen nicht gezwungen werden, diese Angebote zu nutzen.“


(mack)



Source link

Beliebt

Die mobile Version verlassen