Connect with us

Künstliche Intelligenz

Medizin: Führende LLMs schlagen spezialisierte kleine Sprachmodelle klar


Eine aktuelle Studie in Nature Medicine verglich spezialisierte klinische KI-Systeme (OpenEvidence und UpToDate Expert AI) mit großen Sprachmodellen (LLMs) führender KI-Unternehmen (OpenAI, Google und Anthropic). In den verschiedenen Tests innerhalb der Studie lagen diese allgemeinen LLMs vor den spezialisierten medizinischen KI-Systemen.

Weiterlesen nach der Anzeige

Spezialisierte KI-Anwendungen für medizinische Fragen und Recherchen werden von vielen Ärztinnen und Ärzten verwendet. Anbieter versprechen dabei, dass ihre Systeme durch domänenspezifische Trainingsdaten oder Retrieval-Augmented Generation (RAG) gezielt optimiert wurden und ideal für die Anwendung in der Medizin sind.

Ein Forschungsteam aus New York (NYU Langone Health) hat nun in einer im Fachjournal Nature Medicine veröffentlichten Studie zwei spezialisierte medizinische KI-Systeme mit Allzweck-LLMs führender KI-Unternehmen verglichen. Das Ergebnis fällt deutlich aus: In allen drei untersuchten Testbereichen waren die LLMs von OpenAI, Google und Anthropic besser als spezialisierte klinische KI.

Die untersuchten klinischen KI-Tools OpenEvidence und UpToDate Expert AI richten sich beide an medizinische Fachkräfte und sollen Fachfragen beantworten. Verglichen wurden diese mit den führenden LLMs GPT-5.2 (OpenAI), Gemini 3.1 Pro Preview (Google) und Claude Opus 4.6 (Anthropic). In einem Teil der Untersuchung wurde außerdem Google Search AI Overview als realitätsnaher Vergleich einbezogen, zumal diese Funktion im Alltag von Ärztinnen und Ärzten jederzeit zur Verfügung steht.

Das Studiendesign bestand aus drei Teilen. Im ersten Teil beantworteten die Systeme 500 medizinische Fragen im Stil der US-amerikanischen medizinischen Zulassungsprüfung (MedQA Benchmark). Im zweiten Teil folgten 500 Aufgaben aus HealthBench, einem Benchmark zur Bewertung medizinischer Antworten entlang ärztlicher Kriterien. Im dritten, besonders praxisnahen Teil entwickelten die Forscher einen „Real-Clinical-Queries-Benchmark (RCQ)“. Hierfür wurden 100 anonymisierte Anfragen verwendet, die Ärztinnen und Ärzte im Alltag tatsächlich an eine GPT-Instanz der NYU Langone Health gestellt hatten. Die Antworten auf diese realen klinischen Fragen wurden von zwölf US-amerikanischen Mediziner:innen verblindet und randomisiert bewertet. Bewertet wurden klinische Korrektheit, Vollständigkeit, Sicherheit und Verständlichkeit auf einer Skala von 1 bis 4. Insgesamt entstanden dadurch 1800 Modell-Frage-Bewertungen.

Weiterlesen nach der Anzeige

Im klassischen medizinischen Wissensbenchmark MedQA lag Gemini mit einer Genauigkeit von 97,4 Prozent an der Spitze, während GPT-5.2 94,2 Prozent und Claude 90,2 Prozent erreichten. Die beiden spezialisierten klinischen Systeme erreichten hierbei nur 89,6 Prozent (OpenEvidence), bzw. 88,4 Prozent (UpToDate AI).

Auch im HealthBench-Test waren die allgemeinen LLMs besser. GPT-5.2 erzielte 88,0 von 100 möglichen Punkten, während Gemini 79,3 Punkte und Claude 77,0 Punkte erzielten. OpenEvidence und UpToDate Expert AI lagen mit 62,6 und 61,3 Punkten deutlich dahinter.

Die realen, anonymisierten Anfragen von Ärztinnen und Ärzten im RCQ-Benchmark konnten die allgemeinen LLMs ebenfalls besser beantworten. Sie erreichten auf der vierstufigen Bewertungsskala im Mittel 3,62 (Gemini), 3,54 (GPT-5.2) und 3,52 (Claude) Punkte, während OpenEvidence 3,24 Punkte und UpToDate Expert AI 3,17 Punkte erzielte. Google AI Overview, also die allgemeine Suchfunktion in Google mit KI-Antwort, lag mit 3,27 Punkten in etwa auf dem Niveau der medizinischen Systeme.

Die Ergebnisse widersprechen der naheliegenden Erwartung, dass medizinisch optimierte KI bei medizinischen Fragen besser sind als die allgemeineren Systeme führender Tech-Unternehmen. Die Autor:innen vermuten, dass die umfangreicheren Trainingsdaten und schnellere Entwicklungszyklen der führenden Allzweck-LLMs in vielen Aufgaben stärker ins Gewicht fallen könnten als eine nachträgliche Spezialisierung auf medizinischen Daten.

In der Beurteilung der Antworten durch die Mediziner:innen fanden sich keine statistisch signifikanten Unterschiede zwischen den Systemen bezüglich Sicherheit. Das bedeutet jedoch nicht, dass die Antworten der spezialisierten Systeme gleich gut waren. In Freitextanmerkungen der ärztlichen Beurteiler wurden bei OpenEvidence und Google AI Overview besonders häufig unvollständige klinische Inhalte und sicherheitsrelevante Auslassungen vermerkt. OpenEvidence fiel zudem durch vergleichsweise unübersichtliche oder schwer nachvollziehbare Antworten auf.

UpToDate Expert AI verweigerte außerdem deutlich häufiger eine Antwort als die anderen Systeme. Im RCQ-Test wurden 19 Prozent der Anfragen von UpToDate Expert AI verweigert. Bei den allgemeinen LLMs lag dieser Anteil dagegen nur zwischen einem und drei Prozent.

Die Wissenschaftler:innen betonen, dass sie wegen der proprietären Architektur der Systeme nicht sicher erklären können, warum die klinischen Systeme schlechter abschnitten. Eine mögliche Erklärung ist, dass die wesentlich größeren, allgemeinen LLMs gerade bei Aufgaben, die medizinisches Wissen, Argumentation und verständliche Kommunikation kombinieren, von ihrer Größe und ihrem breiten Wissen profitieren. Die Studie sollte nicht als endgültiges Ranking aller Ansätze verstanden werden. Die Autor:innen weisen ausdrücklich darauf hin, dass stark spezialisierte Teilgebiete, komplexe lokale Workflows oder institutionseigene Modelle andere Ergebnisse liefern könnten.

Die Ergebnisse sind für Krankenhäuser und Praxen relevant, weil spezialisierte klinische KI-Produkte oft mit institutioneller Glaubwürdigkeit auftreten. Die Studie zeigt jedoch auf, dass ein KI-System nicht automatisch besser ist, nur weil es gezielt für die Medizin entwickelt wurde. Zumindest in den untersuchten Aufgaben waren die allgemeinen Modelle von OpenAI, Google und Anthropic den klinischen KI-Systemen klar überlegen.

Für Beschaffung, Erstattung und Regulierung von Gesundheits-KI ergeben sich wichtige Konsequenzen. Entscheidend sollte sein, wie gut ein System in unabhängigen Tests und auf realistischen Aufgaben funktioniert und nicht, ob es als klinisches Spezialprodukt vermarktet wird. Die Autor:innen empfehlen daher strengere, unabhängige Evaluationen, bevor KI-Systeme breit in klinische Arbeitsabläufe integriert werden.


(mack)



Source link

Künstliche Intelligenz

Smart Glasses: Meta testete angeblich Gesichtserkennung von Pentagon-Zulieferer


Meta soll für die Entwicklung einer möglichen Gesichtserkennung für seine Smart Glasses auf Technologie eines US-Unternehmens zurückgegriffen haben, das vor allem das Militär, Geheimdienste und Strafverfolgungsbehörden beliefert.

Weiterlesen nach der Anzeige

Das geht aus einer Softwarelizenz des Unternehmens Rank One Computing (ROC) hervor, die dem Techmagazin Wired vorliegt und mit einer Testversion der Meta-AI-App verknüpft sein soll. Die Meta-AI-App wird für die Einrichtung und zentrale Funktionen der Ray-Ban-Meta-Brillen sowie weiterer Smart Glasses des Unternehmens benötigt.

Wired berichtete Anfang Juni bereits über inaktiven Programmcode für eine von Meta entwickelte Gesichtserkennungsfunktion in der Meta-AI-App. Kurz nach Veröffentlichung des Berichts entfernte Meta den Code der intern „Nametag“ genannten Funktion weitgehend per Update.

Die von Meta erworbene Softwarelizenz umfasst dem neuen Wired-Bericht zufolge nicht nur ROCs Gesichtserkennung, sondern auch eine Funktion, die prüft, ob eine Kamera eine lebende Person erfasst, ein Foto oder eine Maske. Die Lizenz solle bis zu zehn Millionen Gesichtsvorlagen unterstützen. Wired fand Spuren der Software in einer Version der Meta-AI-App, die im Juni an Nutzer verteilt worden sein soll. Dazu gehörten Bestandteile zum Prüfen der Lizenz und Starten der Software. Aktiviert waren diese Funktionen aber ebenso wenig wie Metas eigene Gesichtserkennungssoftware.

Rank One Computing ist ein Unternehmen aus Denver, das Gesichtserkennungstechnologie entwickelt und einen Großteil seines Umsatzes mit staatlichen Kunden erzielt. Gegründet wurde es 2015 von Ingenieuren, die zuvor beim Forschungsinstitut Noblis an Gesichtserkennungssystemen gearbeitet hatten. An der Spitze steht B. Scott Swann, der früher beim FBI die für biometrische Datenbanken zuständige Abteilung leitete. Im Verwaltungsrat sitzen frühere hochrangige Mitarbeiter von CIA, FBI und Pentagon. Zu den Kunden und Nutzern zählen laut Wired unter anderem der US Marshals Service, eine Bundesbehörde für Strafverfolgung, die kriminalpolizeiliche Ermittlungsbehörde der US-Marine NCIS sowie Polizeibehörden.

Weiterlesen nach der Anzeige

Zu den Wired-Funden rund um das intern „Nametag“ genannte System betonte Meta, dass bislang keine Gesichtserkennungsfunktion für Nutzer eingeführt worden sei und es sich um ein „rein exploratives“ Projekt handle. Das Unternehmen habe noch keine endgültige Entscheidung darüber getroffen, ob und wie es bei Gesichtserkennung vorgehen werde. „Sollten wir etwas einführen, werden wir dabei mit Bedacht vorgehen und dies mit voller Transparenz tun“, äußerte Meta Anfang Juni.

heise online XR-Briefing abonnieren

Jeden zweiten Montag, liefern wir Ihnen die wichtigsten Entwicklungen der XR-Branche. Damit Sie alles im Blick behalten.

E-Mail-Adresse

Ausführliche Informationen zum Versandverfahren und zu Ihren Widerrufsmöglichkeiten erhalten Sie in unserer Datenschutzerklärung.

Dennoch zeigen die Funde, dass Meta nicht nur aktiv an einer Gesichtserkennungsfunktion arbeitete, sondern offenbar auch Technologie eines externen Gesichtserkennungsanbieters testete. Brisant ist das vor allem wegen Rank Ones Nähe zu staatlichen Sicherheits- und Strafverfolgungsbehörden.


(tobe)



Source link

Weiterlesen

Künstliche Intelligenz

So funktioniert die Umstellung eines automatisierten CI-Prozesses mit KI


Der Vorteil von Linux-Distributionen gegenüber einem selbst konfigurierten Linux-System ist der modulare und leicht zu wartende Aufbau. Ähnlich einem Baukasten lassen sich verschiedene Werkzeuge nachinstallieren und miteinander kombinieren. Einen großen Anteil an einer unkomplizierten Systemwartung hat dabei das Paketmanagement. Deshalb ist es erstrebenswert, eigene Software in Form von Softwarepaketen auszuliefern, die sich in die Paket-Infrastruktur einer Distribution einfügen und mit den Werkzeugen dieser Distribution verwalten lassen.

Dieser Beitrag stellt einen Delivery-Workflow für Pakete einer Linux-Distribution vor, der mithilfe von Shell-Skripten implementiert wurde. Dieser Workflow lässt sich in eine Jenkins-Pipeline einbetten, ist für den Regressionstest und zur Paketerzeugung gedacht und lässt sich dann nach einem Commit automatisch anstoßen und ausführen. Die Skripte nutzten eine ältere Linux-Distribution. Mithilfe agentischer KI wurde auf eine neuere Distribution umgestellt und es wurden Fehler bereinigt. Zum Einsatz kamen Open-Source-Werkzeuge der Distribution.

Um Pakete in einer zufriedenstellenden Qualität ausliefern zu können, ist ein Workflow notwendig, der neben dem Paketbau den Modul-, den Integrations- und – soweit möglich – auch den Systemtest enthält. Die Tests sind in einzelne Stages aufgeteilt, jeder Stage ist dabei ein eigener Bereich gewidmet. Darunter soll überprüft werden, ob sich benötigte Pakete in der Testumgebung installieren lassen, ob die Gerätetreiber gebaut werden können – hier ergeben sich Anknüpfungspunkte für automatisierbare Tests mit angeschlossener Hardwareperipherie –, und schließlich, ob der Quellcode übersetzt werden kann und den Regressionstest im ebenfalls generierten Testprozessor besteht.




Christian Kuhn hat an der TU Ilmenau Automatisierungstechnik / Systemanalyse studiert und arbeitet freiberuflich als Entwickler und Tester. Seine Spezialisierungsrichtung ist die modellbasierte Entwicklung von Komponenten für Steuerungssysteme u.a. in der Automobilindustrie.

Sind alle Tests bestanden, werden anschließend die beim Build-Vorgang erzeugten Binärdateien gepackt und Installationspakete ausgeliefert. Im Anschluss wird noch überprüft, ob sich die Pakete in der temporär erzeugten Testumgebung selbst wieder installieren lassen und die Dienste gestartet werden können, weitere Tests können sich anschließen.


Das war die Leseprobe unseres heise-Plus-Artikels „So funktioniert die Umstellung eines automatisierten CI-Prozesses mit KI“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Künstliche Intelligenz

Maker-Projekt: Bilder auf Platinen platzieren


In verschiedenen Projekten haben wir bereits beschrieben, wie man PCBs – Printed Circuit Boards, also geätzte Platinen – mit Onlineeditoren entwerfen und dann für kleines Geld herstellen lassen kann.

Fünf Platinen in Visitenkartengröße kosten inklusive Versand rund 5 Euro, bei größerer Stückzahl sogar unter 50 Cent pro Stück. Damit eignen sie sich auch hervorragend als Visitenkarten zum Verschenken – und genau die dienen in diesem Artikel als Beispielprojekt.

  • Platinenebenen als Gestaltungsfläche nutzen
  • Bilder in Farbkanäle zerlegen
  • Zerlegte Bilder ins PCB-Layout importieren

Checkliste

Zeitaufwand: ca. 2 – 3 Stunden

Kosten: ab 5 Euro für 5 Platinen inkl. Versand

Material

  • Platine (vom Fertiger, zum Beispiel JLCPCB)
  • SMD-LEDs (Bauform 0805 mit automatischem Farbwechseleffekt)

Werkzeug

  • Heizplatte für SMD-Löten

Software

Mehr zum Thema

Wer ein Bild möglichst originalgetreu auf einer Platine benötigt, kann sich vom Platinenfertiger einfach ein mehrfarbiges Bild per Tintenstrahldrucker aufbringen lassen. Das ist aber keine Herausforderung. Viel reizvoller ist es, seine künstlerische Gestaltungsfreiheit auf die sehr begrenzte „Palette“ der Platine einzuschränken. Wer auf eine Platine „malen“ möchte, hat sich nämlich ein äußerst herausforderndes Medium ausgesucht.


Das war die Leseprobe unseres heise-Plus-Artikels „Maker-Projekt: Bilder auf Platinen platzieren“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Beliebt