Künstliche Intelligenz
ChatGPT als Arzt-Ersatz? Studie zeigt ernüchternde Ergebnisse
Große Sprachmodelle wie GPT-4o erreichen bei medizinischen Wissenstests inzwischen nahezu perfekte Ergebnisse. Sie bestehen die US-Ärzte-Zulassungsprüfung, fassen Patientenakten zusammen und können Symptome einordnen. Gesundheitsbehörden weltweit prüfen deshalb, ob KI-Chatbots als erste Anlaufstelle für Patienten dienen könnten – eine Art „neue Eingangstür zum Gesundheitssystem“, wie es in einem Strategiepapier des britischen NHS heißt.
Weiterlesen nach der Anzeige
Doch die Studie „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study“ von Forschern der Universität Oxford dämpft diese Hoffnungen erheblich. Die Arbeit erscheint im Fachjournal Nature Medicine, eine Vorabversion ist auf arXiv verfügbar. Das zentrale Ergebnis: Das klinische Wissen der Modelle lässt sich nicht auf die Interaktion mit echten Menschen übertragen.
1298 Teilnehmer, zehn medizinische Szenarien
Für die randomisierte, kontrollierte Studie rekrutierten die Forscher 1298 Teilnehmer aus Großbritannien. Jeder Proband erhielt eines von zehn alltagsnahen medizinischen Szenarien – etwa plötzliche starke Kopfschmerzen, Brustschmerzen in der Schwangerschaft oder blutigen Durchfall. Die Aufgabe: Einschätzen, welche Erkrankung vorliegen könnte und ob ein Arztbesuch, die Notaufnahme oder gar ein Krankenwagen nötig ist.
Die Teilnehmer wurden zufällig in vier Gruppen eingeteilt. Drei Gruppen erhielten Zugang zu je einem KI-Modell, das zu Studienbeginn aktuell war – GPT-4o, Llama 3 oder Command R+. Die Kontrollgruppe durfte beliebige Hilfsmittel nutzen, etwa eine Internetsuche.
KI allein brilliert – mit Menschen versagt sie
Weiterlesen nach der Anzeige
Die Ergebnisse offenbaren eine bemerkenswerte Diskrepanz. Ohne menschliche Beteiligung identifizierten selbst die inzwischen nicht mehr aktuellen Sprachmodelle in 94,9 Prozent der Fälle mindestens eine relevante Erkrankung. Bei der Frage nach der richtigen Handlungsempfehlung – Selbstbehandlung, Hausarzt, Notaufnahme oder Rettungswagen – lagen sie im Schnitt in 56,3 Prozent der Fälle richtig.
Sobald jedoch echte Menschen die Modelle befragten, brachen die Werte ein. Teilnehmer mit KI-Unterstützung erkannten relevante Erkrankungen nur in maximal 34,5 Prozent der Fälle – signifikant schlechter als die Kontrollgruppe mit 47 Prozent. Bei der Wahl der richtigen Handlung schnitten alle Gruppen gleich ab: rund 43 Prozent Trefferquote, unabhängig davon, ob ein Chatbot half oder nicht.
Doppeltes Kommunikationsversagen
Die Forscher analysierten die Chat-Protokolle zwischen Nutzern und KI-Modellen, um die Ursachen zu verstehen. Sie identifizierten zwei zentrale Schwachstellen: Erstens gaben die Teilnehmer den Modellen oft unvollständige Informationen. Zweitens verstanden die Nutzer die Antworten der KI nicht richtig – obwohl die Modelle in 65 bis 73 Prozent der Fälle mindestens eine korrekte Diagnose nannten, übernahmen die Teilnehmer diese nicht zuverlässig.
Dr. Anne Reinhardt von der LMU München sieht hier eine grundsätzliche Schere: „Viele Menschen vertrauen KI-Antworten auf Gesundheitsfragen schnell, weil sie leicht zugänglich sind. Sie klingen auch sprachlich sehr überzeugend – selbst dann, wenn der Inhalt eigentlich medizinisch absolut falsch ist.“
Benchmarks führen in die Irre
Die Forscher verglichen die Leistung der Modelle auf dem MedQA-Benchmark – einem Standardtest mit Fragen aus Ärzte-Prüfungen – mit den Ergebnissen der Nutzerstudie. In 26 von 30 Fällen schnitten die Modelle bei den Multiple-Choice-Fragen besser ab als bei der Interaktion mit echten Menschen. Selbst Benchmark-Werte von über 80 Prozent korrespondierten teilweise mit Nutzer-Ergebnissen unter 20 Prozent.
Prof. Ute Schmid von der Universität Bamberg ordnet die hohe Leistung der Modelle „allein“ kritisch ein: „Etwas irreführend finde ich die Aussage, dass die Performanz der Sprachmodelle ‚alleine‘ deutlich höher ist als bei den Nutzenden. In diesem Fall wurden die Anfragen vermutlich von fachlich und mit LLMs erfahrenen Personen formuliert.“
Was müsste ein medizinischer Chatbot können?
Die Experten sind sich einig, dass spezialisierte medizinische Chatbots anders gestaltet werden müssten als heutige Allzweck-Modelle. Prof. Kerstin Denecke von der Berner Fachhochschule formuliert die Anforderungen: „Ein medizinisch spezialisierter Chatbot müsste evidenzbasierte, aktuelle Informationen bieten. Außerdem müsste er Notfallsituationen zuverlässig erkennen, individuelle Risikofaktoren berücksichtigen und transparent seine Grenzen kommunizieren. Er sollte eine strukturierte Anamnese erheben, um zuverlässig triagieren zu können. Und er sollte sich nicht dazu hinreißen lassen, eine Diagnose zu stellen.“
Die Hürden für einen solchen Einsatz seien allerdings erheblich, so Denecke: „Große Hürden sind zum einen die Regulierung – je nach Funktion als Medizinprodukt oder Hochrisiko-KI. Zum anderen sind es die Haftung, der Datenschutz sowie die technische Integration in Versorgungsprozesse.“
Tests mit echten Nutzern unerlässlich
Die Schlussfolgerung der Oxford-Forscher ist eindeutig: Bevor KI-Systeme im Gesundheitswesen eingesetzt werden, müssten sie mit echten Nutzern getestet werden – nicht nur mit Prüfungsfragen oder simulierten Gesprächen. Schmid plädiert für einen differenzierten Ansatz: „Qualitätsgeprüfte Chatbots könnten beispielsweise über die gesetzlichen Krankenkassen angeboten und von Hausarztpraxen als Erstzugang empfohlen werden. Allerdings sollten Menschen nicht gezwungen werden, diese Angebote zu nutzen.“
(mack)
Künstliche Intelligenz
Ältere DSL-Tarife der Telekom werden teurer
Manche DSL-Kunden der Deutschen Telekom sollen ab April 2026 zwei Euro im Monat mehr bezahlen. Betroffen sind DSL-Verträge, die vor April 2023 abgeschlossen worden sind. Sie tragen Marketing-Bezeichnungen wie Call & Surf oder Magenta Zuhause. Der Telecom-Konzern hat damit begonnen, die jeweiligen Kunden über die Preiserhöhung in Kenntnis zu setzen.
Weiterlesen nach der Anzeige
Die Betroffenen können entweder den höheren Preis bezahlen oder ihren Vertrag binnen dreier Monate außerordentlich kündigen. Laut heise online Tarifrechner gibt es Konkurrenzangebote ab zirka 19 Euro monatlich.
Die Deutsche Telekom begründet die Preiserhöhung mit gestiegenen Kosten. Neukunden des Marktführers müssen demnach noch höhere Preise hinnehmen, als die betroffenen Altkunden.
Kündigungstermin mit Bedacht wählen
Wer seinen DSL-Vertrag mit der Telekom innerhalb der Drei-Monats-Frist außerordentlich kündigt, ist an keine Kündigungsfrist gebunden. Allerdings sollte der Termin dem neuen Anbieter überlassen werden, um nicht ohne Internetzugang dazustehen. Ist der Anschluss einmal deaktiviert, kann ein Neuanschluss zusätzliche Kosten nach sich ziehen.
Internetanschlusstarife variieren je nach gewünschten Bandbreiten. Nicht alle Anbieter sind bundesweit tätig, also spielt auch der jeweilige Standort eine Rolle. Nicht zuletzt hängt der Preis von der gewünschten Zugangstechnik ab, ob es wieder DSL oder aber Glasfaser, TV-Kabel oder ein kabelloses Verfahren mit Funkverbindung sein soll.
DT dominiert
Weiterlesen nach der Anzeige
Die Zahl der DSL-Anschlüsse in Deutschland ist rückläufig. 2020 und 2021 gab es laut Erhebung der Bundesnetzagentur (BNetzA) den historischen Höchststand von 25,4 Millionen; Ende Juni 2025 waren es nur noch 23,2 Millionen.
Davon entfielen 13,5 Millionen auf die Deutsche Telekom sowie 8,2 Millionen auf Mitbewerber, die entweder die vollständige Leistung der Deutschen Telekom unter eigener Marke weiterverkaufen oder den von der Deutschen Telekom bereitgestellten Bitstream vermarkten. Die Tarife können sich dennoch wesentlich unterscheiden. Nur 1,5 Millionen DSL-Anschlüsse sind demnach von alternativen Anbietern realisiert, sei es vollständig oder unter Anmietung der Telekom-Anschlussleitung.
(ds)
Künstliche Intelligenz
Kann KI neue Mathe-Erkenntnisse liefern? Spitzenforscher machen den Test
Ob bei komplexen Berechnungen oder logischen Beweisen: Sprachmodelle wie ChatGPT und Gemini gelten mittlerweile als äußerst versiert in Mathematik. Weit weniger gewiss ist bisher, wie sie sich abseits bekannter Pfade schlagen. Sind sie in der Lage, durch eigene Kreativität ungelöste wissenschaftliche Fragestellungen zu bewältigen, oder sind sie nur gut darin, bereits Gelerntes zu reproduzieren?
Weiterlesen nach der Anzeige
Dieser Frage gehen zehn renommierte Mathematiker in einem Experiment nach. Dafür steuerten die Forscher jeweils eine Testfrage aus verschiedenen mathematischen Feldern bei, die ihrer eigenen, noch unveröffentlichten Forschung entspringt. Da es für diese Fragen noch keine Antworten im Netz oder aus anderen Quellen gibt, kann das Sprachmodell zur Lösung nicht auf bereits gelerntes Wissen zugreifen. Das Ziel ist es zu testen, wie weit eine KI über ihre Trainingsdaten hinausgehen und eigene Lösungsansätze entwickeln kann.
Dafür konfrontierte die Gruppe die Sprachmodelle ChatGPT 5.2 Pro von OpenAI sowie Gemini 3.0 Deep Think von Google mit den Forschungsfragen. Den KI-Systemen wurde dabei uneingeschränkter Zugriff auf die Internetsuche gewährt.
Sprachmodelle „wie ein schlechter Student“
In einem Interview mit der New York Times teilen die Forscher erste Eindrücke aus Vorabtests. Der Mathematiker Martin Hairer ist zwar beeindruckt davon, wie sicher und korrekt die KI eine Reihe bekannter Argumente samt dazwischenliegenden Berechnungen aneinanderreihen kann. Geht es jedoch darum, echte Forschungsarbeit zu leisten, bietet sich ein anderes Bild: Die Versuche der KI wirken laut Hairer wie die Arbeit eines schlechten Studenten, der zwar ungefähr wisse, wo er anfangen müsse und wo er hinwolle, aber keine wirkliche Ahnung habe, wie er dorthin gelangen solle.
„Ich habe bisher kein plausibles Beispiel dafür gesehen, dass ein Sprachmodell eine wirklich neue Idee oder ein grundlegend neues Konzept hervorgebracht hat“, sagt der Träger der Fields-Medaille, der prestigeträchtigsten Auszeichnung in der Mathematik. Hairer glaubt daher, dass die mathematische Forschung „ziemlich sicher“ vor einer Übernahme durch große Sprachmodelle sei.
Weiterlesen nach der Anzeige
Einige von Hairers Kollegen haben in ihren Tests ähnliche Erfahrungen gemacht. Die Mathematikerin Tamara Kolda, die ebenfalls eine Frage beigesteuert hat, kritisiert, dass die KI keine eigene Meinung besitze und deshalb kein guter Partner für eine echte Zusammenarbeit sei. Ganz im Gegensatz zu ihren menschlichen Kollegen.
Hairer wiederum bemängelt, dass die KI zu selbstsicher auftrete. Es erfordere viel Mühe, sich davon zu vergewissern, ob die Antworten korrekt seien oder nicht. Auch hier dränge sich laut Hairer wieder der Vergleich mit einem Studenten auf, bei dem man nicht genau wisse, ob er wirklich brillant oder nur gut darin sei, „Bullshit“ zu produzieren.
Gegen den Mythos der „gelösten“ Mathematik
Das Experiment versteht sich als Versuch eines unabhängigen und öffentlichen KI-Benchmarks abseits der gängigen Testverfahren großer LLM-Anbieter. Über die rein technische Überprüfung hinaus arbeiten die Wissenschaftler damit auch gegen den Mythos an, dass Mathematik durch KI bereits „gelöst“ sei. Damit wirken sie der Befürchtung entgegen, dass eine akademische Karriere in diesem Bereich für Studierende überflüssig geworden sei.
Die zehn Fragen sind seit letzter Woche im Netz einsehbar. Ziel ist es, dass die Forschungsgemeinschaft mit den Aufgaben experimentieren und sich eine eigene Meinung bilden kann, bevor die Lösungen am 13. Februar veröffentlicht werden.
Damit ist das Experiment allerdings nicht beendet: Nach einer gewissen Reifezeit möchte die Gruppe in ein paar Monaten eine zweite Runde an Aufgaben formulieren. Diese sollen unter Berücksichtigung des eingeholten Feedbacks einen noch objektiveren KI-Benchmark ermöglichen.
(tobe)
Künstliche Intelligenz
Elektroautos: ACC will Batteriewerk in Kaiserslautern nicht mehr bauen
Das Gemeinschaftsunternehmen Automotive Cells Company (ACC) wird die geplante Großfabrik für Traktionsbatterien in Kaiserslautern nun doch nicht errichten. Die schon 2024 aufgeschobenen Planungen für die Standorte in Deutschland und Italien rechnen sich inzwischen nicht mehr, wie aus einer Stellungnahme des Gemeinschaftsunternehmens der Konzerne Stellantis, Mercedes-Benz und Total Energies hervorgeht. Der Standort Billy-Bercleau/Douvrin in Frankreich solle als „primärer Innovationshub“ bestehen bleiben.
Weiterlesen nach der Anzeige
Hintergrund ist die anhaltend schwache Nachfrage nach Elektroautos in Europa sowie der massive Kurseinbruch bei Stellantis. Der Volkswagen-Konkurrent gab in der vergangenen Woche Abschreibungen in Höhe von 22,2 Milliarden Euro bekannt und erlitt an der Börse einen beispiellosen Kurssturz.
Subventionen waren bereits zugesagt
Am Standort der Stellantis-Tochter Opel in Kaiserslautern sollten rund 2000 Arbeitsplätze entstehen. Deutschland und Frankreich sagten der ACC Fördermittel in Höhe von 1,3 Milliarden Euro zu. Allein das deutsche Werk sollte mit Steuergeld in Höhe von rund 437 Millionen Euro unterstützt werden. Einen entsprechenden Förderbescheid überreichten der damalige Bundeswirtschaftsminister Peter Altmaier (CDU) und die rheinland-pfälzische Ministerpräsidentin Malu Dreyer (SPD) bereits.
Wie beim Partnerprojekt im italienischen Termoli will ACC nun mit den Gewerkschaften über die Einstellung der Projekte sprechen. Der Frankfurter IG-Metall-Bezirkschef Jörg Köhlinger bezeichnete das Vorgehen als „irrational und verantwortungslos“. Widerstandsfähige Lieferketten entstünden so nicht. Jahrelang hätten sich Betriebsräte und IG Metall für die Ansiedlung eingesetzt, sagte der Gewerkschafter. „Wir haben innovative tarifliche Regelungen getroffen, mit denen wir dem Unternehmen weit entgegengekommen sind. Und jetzt will ACC den Abgesang einleiten.“
Lesen Sie auch
(fpi)
-
Entwicklung & Codevor 3 MonatenKommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac
-
Künstliche Intelligenzvor 1 MonatSchnelles Boot statt Bus und Bahn: Was sich von London und New York lernen lässt
-
Apps & Mobile Entwicklungvor 3 MonatenHuawei Mate 80 Pro Max: Tandem-OLED mit 8.000 cd/m² für das Flaggschiff-Smartphone
-
Apps & Mobile Entwicklungvor 3 MonatenFast 5 GB pro mm²: Sandisk und Kioxia kommen mit höchster Bitdichte zum ISSCC
-
Entwicklung & Codevor 2 MonatenKommentar: Anthropic verschenkt MCP – mit fragwürdigen Hintertüren
-
Datenschutz & Sicherheitvor 2 MonatenSyncthing‑Fork unter fremder Kontrolle? Community schluckt das nicht
-
Social Mediavor 2 MonatenDie meistgehörten Gastfolgen 2025 im Feed & Fudder Podcast – Social Media, Recruiting und Karriere-Insights
-
Künstliche Intelligenzvor 3 MonatenWeiter billig Tanken und Heizen: Koalition will CO₂-Preis für 2027 nicht erhöhen
