Künstliche Intelligenz
Radiologen & KI scheitern oft an der Erkennung manipulierter Röntgenbilder
Erstmals ist es für Laien dank KI-Modellen wie ChatGPT möglich, allein durch einfache Textbefehle anatomisch plausible, KI-generierte Röntgenbilder zu erstellen. Was in der medizinischen Ausbildung zur Simulation seltener Krankheiten nützlich sein könnte, birgt laut Forschern enorme Risiken für Missbrauch wie Versicherungsbetrug, juristische Auseinandersetzungen oder die gezielte Manipulation von Forschungsdaten.
Weiterlesen nach der Anzeige
Wissenschaftler des Mount Sinai Hospital in New York haben untersucht, wie gut 17 erfahrene Radiologen aus sechs Ländern und verschiedene aktuelle KI-Modelle darin sind, „Deepfakes“ von Röntgenbildern zu erkennen. Die Ergebnisse zeigen eine besorgniserregende Problematik auf.
Versuchsaufbau mit Test für Mensch und Maschine
Die Forscher nutzten für ihre Untersuchung zwei Datensätze. Der erste bestand aus 154 Röntgenbildern, die verschiedene Körperregionen wie Brustkorb, Wirbelsäule, Arme und Beine abdeckten. Bei der Hälfte der Bilder handelte es sich jedoch nicht um echte Röntgenaufnahmen, sondern um KI-Bilder, die von GPT-4o erstellt wurden. Der zweite Datensatz enthielt spezifische Brustkorb-Aufnahmen eines spezialisierten KI-Modells für die Generierung medizinischer Bilder.
Die Studie lief in drei Phasen ab:
- Blindphase: Die Radiologen sollten die technische Qualität bewerten und Diagnosen stellen. Sie wurden hierbei nicht informiert, dass KI-Bilder enthalten waren.
- Identifikationsphase: Nachdem die Ärzte über die Deepfakes informiert wurden, mussten sie entscheiden, welche Bilder echt und welche KI-generiert waren.
- KI-Vergleich: Vier führende KI-Modelle (GPT-4o, GPT-5, Gemini 2.5 Pro und Llama 4 Maverick) wurden ebenfalls getestet, ob sie erkennen konnten, welche Bilder echt und welche KI-generiert waren.
Weiterlesen nach der Anzeige
Schwierigkeiten bei der Erkennung KI-generierter Röntgenbilder
Die Treffsicherheit bei der Erkennung von KI-generierten Röntgenbildern war überraschend gering und hing nicht von der Berufserfahrung der Mediziner ab.
In der Blindphase äußerten lediglich 41 Prozent der Radiologen (7 von 17) spontan Verdacht, dass sich KI-generierte Bilder im Datensatz befinden könnten. Die restlichen Experten hielten die Deepfakes für authentische klinische Fälle. Aber auch in der Identifikationsphase (nachdem die Radiologen explizit aufgefordert wurden, nach KI-Fälschungen zu suchen), lag ihre durchschnittliche Genauigkeit bei nur etwa 75 Prozent. Das bedeutet, dass jedes vierte Bild falsch beurteilt wurde.
Interessanterweise schnitten auch erfahrene Radiologen mit bis zu 40 Dienstjahren nicht signifikant besser ab als Assistenzärzte. Die Fähigkeit, Deepfakes zu erkennen, scheint eine völlig neue Kompetenz zu sein, die nicht durch klassische klinische Erfahrung erworben wird.
Auch führende KI-Modelle scheitern
Ähnliche Schwierigkeiten in der Unterscheidung KI-generierter Röntgenbilder von echten Aufnahmen hatten auch KI-Modelle selbst. Keines der getesteten Modelle war in der Lage, die synthetischen Bilder zuverlässig zu erkennen.
Während die OpenAI-Modelle jedoch zumindest eine Genauigkeit von etwa 83 bis 85 Prozent erreichten, waren Googles Gemini 2.5 Pro und Metas Llama 4 Maverick deutlich schlechter und erzielten Werte zwischen 56 und 59 Prozent (was kaum besser ist als reines Raten). Auch GPT-4o, welches ja verwendet wurde, um die synthetischen Bilder zu erstellen, konnte diese nicht zuverlässig von echten Aufnahmen unterscheiden.
Hinweise auf KI-Generierung
Trotz der hohen Qualität der Deepfakes gibt es laut der Studie aber bestimmte Merkmale, die auf eine KI-Generierung hindeuten. So wirken Knochenstrukturen oft übermäßig glatt und haben nicht die feinen, unregelmäßigen Texturen, die im echten biologischen Gewebe vorkommen. Ein weiterer technischer Hinweis findet sich auch darin, wie „verrauscht“ die Röntgenaufnahme ist. Während das übliche Bildrauschen bei echten Aufnahmen aufgrund der physikalischen Eigenschaften der Strahlung unregelmäßig ist, wirkt das Körnungsmuster der KI oft unnatürlich gleichmäßig über das gesamte Bild verteilt. Zudem scheitern die KI-Modelle teils an anatomischen Feinheiten. Subtile Details wie die Schatten von Nagelbetten an den Fingern oder die feinen Gefäßverläufe in der Lunge werden von der KI oft unterschlagen oder falsch dargestellt, was ein Hinweis auf eine Manipulation sein kann.
Die Autoren warnen davor, dass die technische Hürde für die Erstellung täuschend echter medizinischer Bilder massiv gesunken ist. Wie sie schreiben, reicht ein einfacher Textprompt heute aus, um einen Knochenbruch oder einen Tumor zu erfinden, der selbst Experten täuscht.
Um das Vertrauen in die digitale Radiologie zu sichern, empfehlen die Autoren der Studie eine mehrstufige Sicherheitsstrategie. Zum einen sollten spezielle Schulungen für Radiologinnen und Radiologen durchgeführt werden, um deren Blick gezielt für die subtilen Artefakte und Unstimmigkeiten KI-generierter Bilder zu schärfen. Zum anderen sehen die Experten die Einführung robuster technischer Schutzmaßnahmen als unumgänglich an, wobei digitale Signaturen, unsichtbare Wasserzeichen oder Blockchain-basierte Herkunftsnachweise die Authentizität medizinischer Aufnahmen garantieren sollen. Ergänzt werden sollten diese Ansätze durch die Entwicklung unabhängiger, automatisierter Detektoren, die mittels tiefgehender Pixelanalyse Deepfakes im klinischen Alltag eigenständig erkennen und verlässlich markieren können.
(mack)