Geoffrey A. Fowler, Tech-Kolumnist der Washington Post, wollte es unbedingt wissen. Er gab dem neuen Tool Zugriff auf die Daten eines ganzen Jahrzehnts – darunter 29 Millionen Schritte und 6 Millionen Herzschlagmessungen, die in seiner Apple-Health-App gespeichert sind. Dann bat er den Bot, seine Gesunderheit, bzw. speziell seine Herzgesundheit zu bewerten.
Der Bot gab ihm eine glatte Sechs (ein F nach amerikanischem System, also die schlechtestmögliche Bewertung).
„Ich bekam Panik und ging joggen“, schreibt Fowler in seinem Artikel. Dann schickte er den Bericht von ChatGPT an seinen echten Arzt. Dessen Antwort war deutlich beruhigender : Fowlers Risiko für einen Herzinfarkt ist tatsächlich so gering, dass seine Versicherung wahrscheinlich nicht einmal für einen zusätzlichen Test zahlen würde, um die KI zu widerlegen.
ChatGPT Health: “Das ist nicht bereit für irgendeine medizinische Beratung“
Als Fowler die KI erneut bat, seine Herzgesundheit zu bewerten, änderte sich das Urteil dramatisch. Plötzlich war es eine „4“ (D). Er fragte weiter und beobachtete, wie die Note zwischen einer „6“ (F) und einer „2“ (B) schwankte. Der Journalist zeigte die Ergebnisse dem Kardiologen Eric Topol, einem Experten für KI in der Medizin. Sein Urteil war unmissverständlich:
Das ist haltlos. Das ist nicht bereit für irgendeine medizinische Beratung.
Über die willkürlichen Schwankungen in den Bewertungen urteilte Topol ebenso scharf: Diese Art von Zufälligkeit sei „völlig inakzeptabel“.
Die Gefahr liegt auf der Hand: Solche unausgereiften Werkzeuge könnten bei gesunden Menschen extreme Ängste auslösen oder umgekehrt Personen mit echten Gesundheitsproblemen in einem falschen Gefühl der Sicherheit wiegen.
Fehlinterpretation: Warum die KI oft an Daten scheitert
Die fehlerhafte Analyse von ChatGPT hatte konkrete Ursachen. Erstens stützte die KI ihre negative Einschätzung stark auf den VO2-max-Wert. Apple selbst bezeichnet diesen Wert jedoch nur als „Schätzung“, und unabhängige Forscher:innen stellten fest, dass diese Schätzungen im Durchschnitt um 13 Prozent zu niedrig ausfallen können.
Zweitens interpretierte die KI Schwankungen in Fowlers Ruhepuls als besorgniserregende Gesundheitssignale und riet ihm, mit seinem Arzt über eine „bemerkenswerte Erhöhung“ zu sprechen. Dabei übersah sie einen entscheidenden Faktor: Die Veränderungen traten immer dann auf, wenn der Journalist ein neues Apple-Watch-Modell mit verbesserten Sensoren erhielt.
Ein KI-Arzt mit Gedächtnisverlust
ChatGPT Health behandelte diese „unscharfen Daten“ wie eindeutige medizinische Fakten und ließ den kritischen Kontext vermissen, den ein menschlicher Experte sofort erkennen würde. Selbst als Fowler seine offiziellen Krankenakten aus der Arztpraxis mit dem Tool verband, verbesserte sich die Note nur auf eine „5“ (D) – ein weiterer Beweis dafür, dass das Kernproblem nicht die Datenmenge, sondern die mangelnde Analysefähigkeit ist.
Über verschiedene Chats hinweg vergaß ChatGPT wiederholt wichtige persönliche Informationen über Fowler, darunter sein Geschlecht, sein Alter und aktuelle Vitalwerte. Selbst als die KI Zugriff auf seine neuesten Bluttestergebnisse hatte, bezog sie diese manchmal nicht in die Analyse mit ein. Für ein Werkzeug, das persönliche Gesundheitseinblicke liefern soll, ist dies ein fundamentaler Mangel. Ein konsistentes Verständnis des Individuums ist die Grundlage jeder sinnvollen Gesundheitsbewertung.
Einordnung: Wo stehen wir bei der KI-Gesundheit?
Dieses Experiment passt zu einem beunruhigenden Trend: Technologieunternehmen bringen KI-Produkte auf den Markt, die bestenfalls wenig akkurat sind – oder schlimmstenfalls sogar „gefährlich“. Das Problem ist dabei beileibe nicht auf OpenAI und ChatGPT Health beschränkt. Der Konkurrenz-Bot Claude aus dem Hause Anthropic bewertete Fowlers Herzgesundheit ebenfalls mit einer „4“ (C) und stützte sich dabei auf die gleiche fehlerhafte Logik.
Zudem fallen diese Dienste nicht unter strenge Gesetze zum Schutz von Gesundheitsdaten wie HIPAA in den USA. Das Experiment ist somit ein wichtiger Weckruf und wirft eine entscheidende Frage für die Zukunft auf: Wem sollten wir vertrauen, wenn eine KI schlechte Gesundheitsratschläge gibt, und wie können wir sicherstellen, dass zukünftige Innovationen sicher und zuverlässig sind?
Wie sieht es bei Euch aus? Nutzt Ihr bereits KI, um Gesundheitsdaten zu tracken, oder um Gesundheitsfragen zu klären?