Connect with us

Künstliche Intelligenz

Medizin: Führende LLMs schlagen spezialisierte kleine Sprachmodelle klar


Eine aktuelle Studie in Nature Medicine verglich spezialisierte klinische KI-Systeme (OpenEvidence und UpToDate Expert AI) mit großen Sprachmodellen (LLMs) führender KI-Unternehmen (OpenAI, Google und Anthropic). In den verschiedenen Tests innerhalb der Studie lagen diese allgemeinen LLMs vor den spezialisierten medizinischen KI-Systemen.

Weiterlesen nach der Anzeige

Spezialisierte KI-Anwendungen für medizinische Fragen und Recherchen werden von vielen Ärztinnen und Ärzten verwendet. Anbieter versprechen dabei, dass ihre Systeme durch domänenspezifische Trainingsdaten oder Retrieval-Augmented Generation (RAG) gezielt optimiert wurden und ideal für die Anwendung in der Medizin sind.

Ein Forschungsteam aus New York (NYU Langone Health) hat nun in einer im Fachjournal Nature Medicine veröffentlichten Studie zwei spezialisierte medizinische KI-Systeme mit Allzweck-LLMs führender KI-Unternehmen verglichen. Das Ergebnis fällt deutlich aus: In allen drei untersuchten Testbereichen waren die LLMs von OpenAI, Google und Anthropic besser als spezialisierte klinische KI.

Die untersuchten klinischen KI-Tools OpenEvidence und UpToDate Expert AI richten sich beide an medizinische Fachkräfte und sollen Fachfragen beantworten. Verglichen wurden diese mit den führenden LLMs GPT-5.2 (OpenAI), Gemini 3.1 Pro Preview (Google) und Claude Opus 4.6 (Anthropic). In einem Teil der Untersuchung wurde außerdem Google Search AI Overview als realitätsnaher Vergleich einbezogen, zumal diese Funktion im Alltag von Ärztinnen und Ärzten jederzeit zur Verfügung steht.

Das Studiendesign bestand aus drei Teilen. Im ersten Teil beantworteten die Systeme 500 medizinische Fragen im Stil der US-amerikanischen medizinischen Zulassungsprüfung (MedQA Benchmark). Im zweiten Teil folgten 500 Aufgaben aus HealthBench, einem Benchmark zur Bewertung medizinischer Antworten entlang ärztlicher Kriterien. Im dritten, besonders praxisnahen Teil entwickelten die Forscher einen „Real-Clinical-Queries-Benchmark (RCQ)“. Hierfür wurden 100 anonymisierte Anfragen verwendet, die Ärztinnen und Ärzte im Alltag tatsächlich an eine GPT-Instanz der NYU Langone Health gestellt hatten. Die Antworten auf diese realen klinischen Fragen wurden von zwölf US-amerikanischen Mediziner:innen verblindet und randomisiert bewertet. Bewertet wurden klinische Korrektheit, Vollständigkeit, Sicherheit und Verständlichkeit auf einer Skala von 1 bis 4. Insgesamt entstanden dadurch 1800 Modell-Frage-Bewertungen.

Weiterlesen nach der Anzeige

Im klassischen medizinischen Wissensbenchmark MedQA lag Gemini mit einer Genauigkeit von 97,4 Prozent an der Spitze, während GPT-5.2 94,2 Prozent und Claude 90,2 Prozent erreichten. Die beiden spezialisierten klinischen Systeme erreichten hierbei nur 89,6 Prozent (OpenEvidence), bzw. 88,4 Prozent (UpToDate AI).

Auch im HealthBench-Test waren die allgemeinen LLMs besser. GPT-5.2 erzielte 88,0 von 100 möglichen Punkten, während Gemini 79,3 Punkte und Claude 77,0 Punkte erzielten. OpenEvidence und UpToDate Expert AI lagen mit 62,6 und 61,3 Punkten deutlich dahinter.

Die realen, anonymisierten Anfragen von Ärztinnen und Ärzten im RCQ-Benchmark konnten die allgemeinen LLMs ebenfalls besser beantworten. Sie erreichten auf der vierstufigen Bewertungsskala im Mittel 3,62 (Gemini), 3,54 (GPT-5.2) und 3,52 (Claude) Punkte, während OpenEvidence 3,24 Punkte und UpToDate Expert AI 3,17 Punkte erzielte. Google AI Overview, also die allgemeine Suchfunktion in Google mit KI-Antwort, lag mit 3,27 Punkten in etwa auf dem Niveau der medizinischen Systeme.

Die Ergebnisse widersprechen der naheliegenden Erwartung, dass medizinisch optimierte KI bei medizinischen Fragen besser sind als die allgemeineren Systeme führender Tech-Unternehmen. Die Autor:innen vermuten, dass die umfangreicheren Trainingsdaten und schnellere Entwicklungszyklen der führenden Allzweck-LLMs in vielen Aufgaben stärker ins Gewicht fallen könnten als eine nachträgliche Spezialisierung auf medizinischen Daten.

In der Beurteilung der Antworten durch die Mediziner:innen fanden sich keine statistisch signifikanten Unterschiede zwischen den Systemen bezüglich Sicherheit. Das bedeutet jedoch nicht, dass die Antworten der spezialisierten Systeme gleich gut waren. In Freitextanmerkungen der ärztlichen Beurteiler wurden bei OpenEvidence und Google AI Overview besonders häufig unvollständige klinische Inhalte und sicherheitsrelevante Auslassungen vermerkt. OpenEvidence fiel zudem durch vergleichsweise unübersichtliche oder schwer nachvollziehbare Antworten auf.

UpToDate Expert AI verweigerte außerdem deutlich häufiger eine Antwort als die anderen Systeme. Im RCQ-Test wurden 19 Prozent der Anfragen von UpToDate Expert AI verweigert. Bei den allgemeinen LLMs lag dieser Anteil dagegen nur zwischen einem und drei Prozent.

Die Wissenschaftler:innen betonen, dass sie wegen der proprietären Architektur der Systeme nicht sicher erklären können, warum die klinischen Systeme schlechter abschnitten. Eine mögliche Erklärung ist, dass die wesentlich größeren, allgemeinen LLMs gerade bei Aufgaben, die medizinisches Wissen, Argumentation und verständliche Kommunikation kombinieren, von ihrer Größe und ihrem breiten Wissen profitieren. Die Studie sollte nicht als endgültiges Ranking aller Ansätze verstanden werden. Die Autor:innen weisen ausdrücklich darauf hin, dass stark spezialisierte Teilgebiete, komplexe lokale Workflows oder institutionseigene Modelle andere Ergebnisse liefern könnten.

Die Ergebnisse sind für Krankenhäuser und Praxen relevant, weil spezialisierte klinische KI-Produkte oft mit institutioneller Glaubwürdigkeit auftreten. Die Studie zeigt jedoch auf, dass ein KI-System nicht automatisch besser ist, nur weil es gezielt für die Medizin entwickelt wurde. Zumindest in den untersuchten Aufgaben waren die allgemeinen Modelle von OpenAI, Google und Anthropic den klinischen KI-Systemen klar überlegen.

Für Beschaffung, Erstattung und Regulierung von Gesundheits-KI ergeben sich wichtige Konsequenzen. Entscheidend sollte sein, wie gut ein System in unabhängigen Tests und auf realistischen Aufgaben funktioniert und nicht, ob es als klinisches Spezialprodukt vermarktet wird. Die Autor:innen empfehlen daher strengere, unabhängige Evaluationen, bevor KI-Systeme breit in klinische Arbeitsabläufe integriert werden.


(mack)



Source link

Künstliche Intelligenz

So funktioniert die Umstellung eines automatisierten CI-Prozesses mit KI


Der Vorteil von Linux-Distributionen gegenüber einem selbst konfigurierten Linux-System ist der modulare und leicht zu wartende Aufbau. Ähnlich einem Baukasten lassen sich verschiedene Werkzeuge nachinstallieren und miteinander kombinieren. Einen großen Anteil an einer unkomplizierten Systemwartung hat dabei das Paketmanagement. Deshalb ist es erstrebenswert, eigene Software in Form von Softwarepaketen auszuliefern, die sich in die Paket-Infrastruktur einer Distribution einfügen und mit den Werkzeugen dieser Distribution verwalten lassen.

Dieser Beitrag stellt einen Delivery-Workflow für Pakete einer Linux-Distribution vor, der mithilfe von Shell-Skripten implementiert wurde. Dieser Workflow lässt sich in eine Jenkins-Pipeline einbetten, ist für den Regressionstest und zur Paketerzeugung gedacht und lässt sich dann nach einem Commit automatisch anstoßen und ausführen. Die Skripte nutzten eine ältere Linux-Distribution. Mithilfe agentischer KI wurde auf eine neuere Distribution umgestellt und es wurden Fehler bereinigt. Zum Einsatz kamen Open-Source-Werkzeuge der Distribution.

Um Pakete in einer zufriedenstellenden Qualität ausliefern zu können, ist ein Workflow notwendig, der neben dem Paketbau den Modul-, den Integrations- und – soweit möglich – auch den Systemtest enthält. Die Tests sind in einzelne Stages aufgeteilt, jeder Stage ist dabei ein eigener Bereich gewidmet. Darunter soll überprüft werden, ob sich benötigte Pakete in der Testumgebung installieren lassen, ob die Gerätetreiber gebaut werden können – hier ergeben sich Anknüpfungspunkte für automatisierbare Tests mit angeschlossener Hardwareperipherie –, und schließlich, ob der Quellcode übersetzt werden kann und den Regressionstest im ebenfalls generierten Testprozessor besteht.




Christian Kuhn hat an der TU Ilmenau Automatisierungstechnik / Systemanalyse studiert und arbeitet freiberuflich als Entwickler und Tester. Seine Spezialisierungsrichtung ist die modellbasierte Entwicklung von Komponenten für Steuerungssysteme u.a. in der Automobilindustrie.

Sind alle Tests bestanden, werden anschließend die beim Build-Vorgang erzeugten Binärdateien gepackt und Installationspakete ausgeliefert. Im Anschluss wird noch überprüft, ob sich die Pakete in der temporär erzeugten Testumgebung selbst wieder installieren lassen und die Dienste gestartet werden können, weitere Tests können sich anschließen.


Das war die Leseprobe unseres heise-Plus-Artikels „So funktioniert die Umstellung eines automatisierten CI-Prozesses mit KI“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Künstliche Intelligenz

Maker-Projekt: Bilder auf Platinen platzieren


In verschiedenen Projekten haben wir bereits beschrieben, wie man PCBs – Printed Circuit Boards, also geätzte Platinen – mit Onlineeditoren entwerfen und dann für kleines Geld herstellen lassen kann.

Fünf Platinen in Visitenkartengröße kosten inklusive Versand rund 5 Euro, bei größerer Stückzahl sogar unter 50 Cent pro Stück. Damit eignen sie sich auch hervorragend als Visitenkarten zum Verschenken – und genau die dienen in diesem Artikel als Beispielprojekt.

  • Platinenebenen als Gestaltungsfläche nutzen
  • Bilder in Farbkanäle zerlegen
  • Zerlegte Bilder ins PCB-Layout importieren

Checkliste

Zeitaufwand: ca. 2 – 3 Stunden

Kosten: ab 5 Euro für 5 Platinen inkl. Versand

Material

  • Platine (vom Fertiger, zum Beispiel JLCPCB)
  • SMD-LEDs (Bauform 0805 mit automatischem Farbwechseleffekt)

Werkzeug

  • Heizplatte für SMD-Löten

Software

Mehr zum Thema

Wer ein Bild möglichst originalgetreu auf einer Platine benötigt, kann sich vom Platinenfertiger einfach ein mehrfarbiges Bild per Tintenstrahldrucker aufbringen lassen. Das ist aber keine Herausforderung. Viel reizvoller ist es, seine künstlerische Gestaltungsfreiheit auf die sehr begrenzte „Palette“ der Platine einzuschränken. Wer auf eine Platine „malen“ möchte, hat sich nämlich ein äußerst herausforderndes Medium ausgesucht.


Das war die Leseprobe unseres heise-Plus-Artikels „Maker-Projekt: Bilder auf Platinen platzieren“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Künstliche Intelligenz

FBI nimmt Phishing-as-a-Service-Plattform „Outsider“ hops


Am vergangenen Wochenende hat das FBI Cleveland einen Schlag gegen Cyberkriminelle versetzt. Die chinesisch verortete Phishing-as-a-Service-Plattform (PhaaS) war seit dem Jahr 2023 aktiv. Jetzt ziert die Webseiten ein FBI-Banner, das auf die Beschlagnahme hinweist.

Weiterlesen nach der Anzeige

Das FBI berichtet auf Linkedin von der „Operation Ghost Hook“. Demnach haben die Strafverfolger zusammen mit Google und Lumen an den Maßnahmen gegen das kriminelle Angebot gearbeitet. „Outsider“ oder auch „Outsider Enterprise“ bot als Phishing-as-a-Service-Plattform „schlüsselfertige“ Phishingseiten mitsamt Infrastruktur gegen Geld an. Die Phishing-Kits konnten komplexe Angriffe gegen Bürger der USA und mindestens 54 weiterer Länder ausführen. Alles automatisch und KI-gestützt. Die Untersuchungen haben ergeben, dass die Outsider-PhaaS-Plattform seit Juli 2023 mehr als 8000 einzigartige Phishing-Domains aufgesetzt hat. Die zeichnen für geschätzte 3.870.000 gestohlene Kreditkartendaten und damit verbunden rund 1,9 Milliarden US-Dollar an Verlusten verantwortlich.

Bei der gemeinsamen Aktion haben das FBI und die Partner mehrere Domains der Hauptverwaltungsserver beschlagnahmt. Außerdem eine Shopify-Geschäftsseite mitsamt Konto, die zum Testen des Phishing-Dienstes genutzt wurden. Auch 100.000 Tether (USDT) haben die Ermittler aus den Outsider-Wallets eingefroren. Tausende Phishing-Domains bei US-Providern wurden beschlagnahmt, sie zeigen nun das FBI-Banner zur Beschlagnahme im Rahmen von „Operation Ghost Hook“. Über einen „Outsider“-Telegram-Bot haben die Strafverfolger außerdem Informationen über Kunden des kriminellen Angebots erhalten.

Die Operation ist Teil der übergeordneten „Operation Riptide“, einer andauernden FBI-Kampagne, die die Drahtzieher, Infrastruktur und Finanznetzwerke hinter Cybercrime zum Gegenstand hat.

In dem Zusammenhang hat Google zudem erläutert, dass das Unternehmen gegen KI-Betrug auch mittels juristischer Schritte vorgehen will, das Ganze nennt sich grob übersetzt „proaktive Rechtsdurchsetzung“ (Affirmative Litigation). Neben dem Patchen von Sicherheitslücken und Sperren betrügerischer Konten geht das Unternehmen zusammen mit Strafverfolgern auch zivilrechtlich gegen Cyberkriminelle vor. Dazu gehört das Einklagen von Domain-Sperren, um deren Infrastruktur zu zerlegen, und das Einfrieren von Finanzmitteln.


(dmk)



Source link

Weiterlesen

Beliebt