Künstliche Intelligenz

Medizin: Führende LLMs schlagen spezialisierte kleine Sprachmodelle klar


Eine aktuelle Studie in Nature Medicine verglich spezialisierte klinische KI-Systeme (OpenEvidence und UpToDate Expert AI) mit großen Sprachmodellen (LLMs) führender KI-Unternehmen (OpenAI, Google und Anthropic). In den verschiedenen Tests innerhalb der Studie lagen diese allgemeinen LLMs vor den spezialisierten medizinischen KI-Systemen.

Weiterlesen nach der Anzeige

Spezialisierte KI-Anwendungen für medizinische Fragen und Recherchen werden von vielen Ärztinnen und Ärzten verwendet. Anbieter versprechen dabei, dass ihre Systeme durch domänenspezifische Trainingsdaten oder Retrieval-Augmented Generation (RAG) gezielt optimiert wurden und ideal für die Anwendung in der Medizin sind.

Ein Forschungsteam aus New York (NYU Langone Health) hat nun in einer im Fachjournal Nature Medicine veröffentlichten Studie zwei spezialisierte medizinische KI-Systeme mit Allzweck-LLMs führender KI-Unternehmen verglichen. Das Ergebnis fällt deutlich aus: In allen drei untersuchten Testbereichen waren die LLMs von OpenAI, Google und Anthropic besser als spezialisierte klinische KI.

Die untersuchten klinischen KI-Tools OpenEvidence und UpToDate Expert AI richten sich beide an medizinische Fachkräfte und sollen Fachfragen beantworten. Verglichen wurden diese mit den führenden LLMs GPT-5.2 (OpenAI), Gemini 3.1 Pro Preview (Google) und Claude Opus 4.6 (Anthropic). In einem Teil der Untersuchung wurde außerdem Google Search AI Overview als realitätsnaher Vergleich einbezogen, zumal diese Funktion im Alltag von Ärztinnen und Ärzten jederzeit zur Verfügung steht.

Das Studiendesign bestand aus drei Teilen. Im ersten Teil beantworteten die Systeme 500 medizinische Fragen im Stil der US-amerikanischen medizinischen Zulassungsprüfung (MedQA Benchmark). Im zweiten Teil folgten 500 Aufgaben aus HealthBench, einem Benchmark zur Bewertung medizinischer Antworten entlang ärztlicher Kriterien. Im dritten, besonders praxisnahen Teil entwickelten die Forscher einen „Real-Clinical-Queries-Benchmark (RCQ)“. Hierfür wurden 100 anonymisierte Anfragen verwendet, die Ärztinnen und Ärzte im Alltag tatsächlich an eine GPT-Instanz der NYU Langone Health gestellt hatten. Die Antworten auf diese realen klinischen Fragen wurden von zwölf US-amerikanischen Mediziner:innen verblindet und randomisiert bewertet. Bewertet wurden klinische Korrektheit, Vollständigkeit, Sicherheit und Verständlichkeit auf einer Skala von 1 bis 4. Insgesamt entstanden dadurch 1800 Modell-Frage-Bewertungen.

Weiterlesen nach der Anzeige

Im klassischen medizinischen Wissensbenchmark MedQA lag Gemini mit einer Genauigkeit von 97,4 Prozent an der Spitze, während GPT-5.2 94,2 Prozent und Claude 90,2 Prozent erreichten. Die beiden spezialisierten klinischen Systeme erreichten hierbei nur 89,6 Prozent (OpenEvidence), bzw. 88,4 Prozent (UpToDate AI).

Auch im HealthBench-Test waren die allgemeinen LLMs besser. GPT-5.2 erzielte 88,0 von 100 möglichen Punkten, während Gemini 79,3 Punkte und Claude 77,0 Punkte erzielten. OpenEvidence und UpToDate Expert AI lagen mit 62,6 und 61,3 Punkten deutlich dahinter.

Die realen, anonymisierten Anfragen von Ärztinnen und Ärzten im RCQ-Benchmark konnten die allgemeinen LLMs ebenfalls besser beantworten. Sie erreichten auf der vierstufigen Bewertungsskala im Mittel 3,62 (Gemini), 3,54 (GPT-5.2) und 3,52 (Claude) Punkte, während OpenEvidence 3,24 Punkte und UpToDate Expert AI 3,17 Punkte erzielte. Google AI Overview, also die allgemeine Suchfunktion in Google mit KI-Antwort, lag mit 3,27 Punkten in etwa auf dem Niveau der medizinischen Systeme.

Die Ergebnisse widersprechen der naheliegenden Erwartung, dass medizinisch optimierte KI bei medizinischen Fragen besser sind als die allgemeineren Systeme führender Tech-Unternehmen. Die Autor:innen vermuten, dass die umfangreicheren Trainingsdaten und schnellere Entwicklungszyklen der führenden Allzweck-LLMs in vielen Aufgaben stärker ins Gewicht fallen könnten als eine nachträgliche Spezialisierung auf medizinischen Daten.

In der Beurteilung der Antworten durch die Mediziner:innen fanden sich keine statistisch signifikanten Unterschiede zwischen den Systemen bezüglich Sicherheit. Das bedeutet jedoch nicht, dass die Antworten der spezialisierten Systeme gleich gut waren. In Freitextanmerkungen der ärztlichen Beurteiler wurden bei OpenEvidence und Google AI Overview besonders häufig unvollständige klinische Inhalte und sicherheitsrelevante Auslassungen vermerkt. OpenEvidence fiel zudem durch vergleichsweise unübersichtliche oder schwer nachvollziehbare Antworten auf.

UpToDate Expert AI verweigerte außerdem deutlich häufiger eine Antwort als die anderen Systeme. Im RCQ-Test wurden 19 Prozent der Anfragen von UpToDate Expert AI verweigert. Bei den allgemeinen LLMs lag dieser Anteil dagegen nur zwischen einem und drei Prozent.

Die Wissenschaftler:innen betonen, dass sie wegen der proprietären Architektur der Systeme nicht sicher erklären können, warum die klinischen Systeme schlechter abschnitten. Eine mögliche Erklärung ist, dass die wesentlich größeren, allgemeinen LLMs gerade bei Aufgaben, die medizinisches Wissen, Argumentation und verständliche Kommunikation kombinieren, von ihrer Größe und ihrem breiten Wissen profitieren. Die Studie sollte nicht als endgültiges Ranking aller Ansätze verstanden werden. Die Autor:innen weisen ausdrücklich darauf hin, dass stark spezialisierte Teilgebiete, komplexe lokale Workflows oder institutionseigene Modelle andere Ergebnisse liefern könnten.

Die Ergebnisse sind für Krankenhäuser und Praxen relevant, weil spezialisierte klinische KI-Produkte oft mit institutioneller Glaubwürdigkeit auftreten. Die Studie zeigt jedoch auf, dass ein KI-System nicht automatisch besser ist, nur weil es gezielt für die Medizin entwickelt wurde. Zumindest in den untersuchten Aufgaben waren die allgemeinen Modelle von OpenAI, Google und Anthropic den klinischen KI-Systemen klar überlegen.

Für Beschaffung, Erstattung und Regulierung von Gesundheits-KI ergeben sich wichtige Konsequenzen. Entscheidend sollte sein, wie gut ein System in unabhängigen Tests und auf realistischen Aufgaben funktioniert und nicht, ob es als klinisches Spezialprodukt vermarktet wird. Die Autor:innen empfehlen daher strengere, unabhängige Evaluationen, bevor KI-Systeme breit in klinische Arbeitsabläufe integriert werden.


(mack)



Source link

Beliebt

Die mobile Version verlassen