Künstliche Intelligenz

KI-Update kompakt: Sicherheit von KI-Agenten, Burnout, Ring-Kameras, Roboter

Benchmark testet regelgetreues Verhalten von KI-Agenten

Weiterlesen nach der Anzeige

KI-Agenten lügen und umgehen Sicherheitsregeln, wenn es ihrem Ziel dient. Ein neuer Benchmark namens ODCV-Bench will erstmals das tatsächliche Verhalten autonomer Agenten messen, nicht nur deren Absichtserklärungen. Er umfasst 40 Szenarien mit mehreren Teilaufgaben. In einem davon soll ein Fahrer Impfstoff liefern, der sich wegen des Wetters verspätet. Der Agent kann die reguläre Pause einhalten und die Lieferung verzögern, oder er manipuliert Sicherheitsprotokolle und lässt den Fahrer ohne Pause weiterfahren.

Der Benchmark prüft auch, ob Agenten Regeln nur auf direkte Aufforderung brechen oder schon dann, wenn ein bloßer Anreiz genügt. In den Tests setzten sich 30 bis 50 Prozent der getesteten Modelle über Sicherheitsrichtlinien hinweg, darunter Claude Opus 4.5, GPT 5.1 und Gemini 3.

ChatGPT als Arzt-Ersatz?

Große Sprachmodelle bestehen Ärzte-Zulassungsprüfungen und ordnen Symptome zuverlässig ein. Ohne menschliche Beteiligung identifizierten sie in einem Test der Universität Oxford in 94,9 Prozent der Fälle mindestens eine relevante Erkrankung. Doch sobald echte Menschen die Modelle befragten, brachen die Werte ein: Teilnehmer mit KI-Unterstützung erkannten relevante Erkrankungen nur in maximal 34,5 Prozent der Fälle.

Die Schlussfolgerung des Oxford-Teams ist klar: Bevor KI-Systeme im Gesundheitswesen zum Einsatz kommen, müssen sie mit echten Menschen getestet werden, nicht nur mit Prüfungsfragen oder simulierten Gesprächen.

KI-Engine für präziseres Medikamenten Design

Weiterlesen nach der Anzeige

Isomorphic Labs, eine Tochterfirma von Google DeepMind, hat ein neues System für die Wirkstoffentwicklung vorgestellt. Die „Drug Design Engine“ (IsoDDE) sagt laut dem Unternehmen doppelt so genau wie ihr Vorgänger AlphaFold 3 vorher, wie potenzielle Wirkstoffe an Proteine andocken. Das gilt besonders für Strukturen, die stark von den Trainingsdaten abweichen. Im Kern geht es um Liganden, also kleine Moleküle, die an ein Protein binden und dessen Funktion beeinflussen. Genau dieses Zusammenspiel zu verstehen, ist ein zentrales Problem bei der Entwicklung neuer Medikamente.

Das System kann zudem vorhersagen, wie stark ein Wirkstoff an sein Zielprotein bindet, und soll sogar bisher unbekannte Andockstellen auf Proteinen finden. Laut Isomorphic Labs liefert IsoDDE diese Ergebnisse in Sekunden, was die computergestützte Vorauswahl von Wirkstoffkandidaten deutlich beschleunigen könnte.

KI-Einsatz führt zu Mehrarbeit statt Entlastung

Forscher der Berkeley Haas School of Business haben ein US-amerikanisches Tech-Unternehmen mit rund 200 Mitarbeitern acht Monate lang beobachtet. Die Firma hatte ihren Angestellten Zugang zu kommerziellen KI-Tools gegeben, ohne deren Nutzung vorzuschreiben. Das Ergebnis: Die Mitarbeiter arbeiteten schneller, übernahmen mehr Aufgaben und dehnten ihre Arbeitszeit freiwillig aus. Die KI gab ihnen das Gefühl, mehr schaffen zu können. Natürliche Pausen verschwanden, stattdessen wechselten sie ständig zwischen Aufgaben. Die Interaktion mit der KI fühlte sich wie ein lockeres Gespräch an, wodurch die Grenzen zwischen Job und Privatleben verschwammen.

Als die anfängliche Begeisterung nachließ, spürten die Mitarbeiter die schleichend gewachsene Arbeitslast. Die Folgen: chronische Ermüdung, Burnout und erhöhte Fluktuation. Vorgesetzte konnten oft nicht unterscheiden, ob die höhere Produktivität nachhaltig war oder auf Kosten der Gesundheit ging. Die Berkeley-Forscher empfehlen Unternehmen deshalb, klare Regeln aufzustellen, wann und wie KI eingesetzt werden soll.

Deep Research bekommt großes GPT-5 Update

OpenAI hat seine Recherche-Funktion „Deep Research“ in ChatGPT auf das neue Modell GPT-5.2 umgestellt. Bisher lief das Tool auf Basis der Modelle o3 und o4-mini. Nutzer können nun Apps in ChatGPT anbinden, das System gezielt bestimmte Webseiten durchsuchen lassen und den Fortschritt einer Recherche in Echtzeit verfolgen. Wer möchte, kann die Suche unterbrechen, Rückfragen stellen oder neue Quellen ergänzen.

Deep Research startete vor einem Jahr als erster KI-Agent in ChatGPT: Das System führt anhand einer Nutzeranfrage eigenständig mehrstufige Websuchen durch, bevor es eine Antwort formuliert. OpenAI weist darauf hin, dass auch die Websuche nicht vor Fehlern schützt. Die Faustregel bleibt: Je länger die erzeugten Texte, desto höher das Risiko für falsche Informationen.

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im „KI-Update“ von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

LLMs halluzinieren immer noch viel zu oft

Selbst die besten KI-Modelle erfinden regelmäßig Fakten. Das belegt ein neuer Benchmark namens „Halluhard“, entwickelt von Forschern der Schweizer Universität EPFL, des ELLIS Institute Tübingen und des Max-Planck-Instituts für Intelligente Systeme. Er misst Halluzinationen in realistischen Gesprächen über mehrere Frage-Antwort-Runden zu Themen wie Rechtsfällen, Forschungsfragen und Programmierung. Anthropics Claude Opus 4.5 mit aktivierter Websuche, die stärkste getestete Konfiguration, produzierte noch in rund 30 Prozent der Fälle falsche Informationen. Ohne Websuche lag die Rate bei etwa 60 Prozent.

Der Grund: Modelle mit Websuche zitieren zwar oft eine passende Quelle, erfinden dann aber Details, die dort gar nicht stehen. In längeren Gesprächen steigt die Rate, weil die Modelle auf ihren eigenen früheren Fehlern aufbauen. Besonders anfällig sind sie bei Nischenwissen, etwa bei wenig zitierten Forschungsarbeiten. Dort tauchen Informationen in den Trainingsdaten nur bruchstückhaft auf, was für eine Antwort reicht, aber nicht für eine korrekte.

Kritik an KI-Funktion für die Ring-Kameras

Nach einer Super-Bowl-Werbung von Ring, einer Amazon-Tochter, für die KI-Funktion „Search Party“ wächst die Kritik. Die Funktion soll Hundebesitzern helfen, entlaufene Tiere zu finden: Eine KI durchsucht automatisch die Aufnahmen aller Ring-Kameras in der Nachbarschaft. Kritiker sehen darin jedoch den Aufbau eines vernetzten Überwachungsapparats. „Hier geht’s definitiv nicht um Hunde, hier geht’s um Massenüberwachung“, schrieb der demokratische Senator Ed Markey.

Ring stand bereits früher wegen enger Verbindungen zu Strafverfolgungsbehörden in der Kritik. Unter Gründer Jamie Siminoff erhielt die Polizei einst direkten Zugriff auf Kameraaufnahmen. Diese Kooperation wurde zwischenzeitlich zurückgefahren, nach Siminoffs Rückkehr im vergangenen Jahr jedoch wieder aufgenommen.

ChatGPT führt Werbung in den USA ein

OpenAI blendet in den USA erstmals Anzeigen in ChatGPT ein. Die Werbung beschränkt sich auf die Gratisversion und die günstigste Bezahlvariante „ChatGPT Go“. Teurere Abonnements bleiben werbefrei. Die Anzeigen sollen keinen Einfluss auf die KI-Antworten haben und optisch klar als Werbung erkennbar sein. Werbetreibende erhalten keinen Zugriff auf Chatverläufe oder persönliche Daten, sondern nur anonymisierte Leistungsdaten wie Klickzahlen. Die Auswahl der Anzeigen richtet sich nach dem aktuellen Chat-Thema und vergangenen Interaktionen: Bei einer Rezeptsuche könnten etwa Anzeigen für Kochzubehör oder Lieferdienste erscheinen.

Anzeigen für Minderjährige sowie Werbung aus den Bereichen Gesundheit und Politik schließt OpenAI vorerst aus. Das Unternehmen begründet den Schritt damit, dass der Betrieb der Gratis- und Go-Version immense Infrastrukturkosten verursache. Werbeeinnahmen seien deshalb wirtschaftlich nötig.

China wettet im großen Stil auf humanoide Roboter

China will innerhalb von fünf Jahren zum Weltmarktführer für humanoide Roboter aufsteigen. Lokale Regierungen stellen Unternehmen vergünstigte Büroflächen bereit, gewähren Zugang zu günstigen Krediten und subventionierten Fachkräften. In Zentren wie dem „Robot Valley“ in Shenzhen fließen Milliarden in KI-Modelle und Robotik-Hardware. Der Staat fungiert zudem als wichtiger Erstabnehmer.

Im Zuge der Förderung sind in China mehr als 140 Start-ups für humanoide Roboter entstanden. In den USA wächst die Sorge: Laut dem Wall Street Journal bereitet das Weiße Haus ein Dekret vor, das die US-Robotikindustrie gezielt fördern soll.

Netflix‘ Synchronsprecher-Vertrag ist rechtswidrig

Der aktuelle Netflix-Vertrag für deutschsprachige Synchronsprecher ist in seiner jetzigen Form offenbar nicht rechtens. Das geht aus einem Rechtsgutachten hervor, das der Verband Deutscher Sprecher (VDS) in Auftrag gegeben hat. Die sogenannte AOR-Vereinbarung verlangt von Sprechern, Netflix weitreichende Rechte an ihren Stimmaufnahmen einzuräumen: Nutzung für KI-Training, digitale Bearbeitung und Nachbildung sowie die Erzeugung synthetischer Stimmen, und das für 50 Jahre.

Der VDS rät seinen Mitgliedern von einer Unterzeichnung ab. Sollten sie diesem Rat folgen, könnten erste Netflix-Eigenproduktionen in absehbarer Zukunft ohne deutsche Synchronfassung erscheinen.

KI-Bibliothekarin Stella für die Lesezeichen-Sammlung

Der Online-Bookmark-Manager Raindrop.io hat eine KI-Assistentin namens Stella eingeführt. Sie durchsucht gespeicherte Links, fasst Artikel zusammen und hilft beim Aufräumen der Lesezeichen-Sammlung. Nutzer können etwa fragen: „Such mir alle Links zu KI-Grundlagen raus“ und erhalten eine kommentierte Liste. Stella läuft auf einem Sprachmodell von OpenAI, das direkt beim Anbieter gehostet wird, sodass keine Daten über eine externe API abfließen. Der Dienst nutzt dabei die statischen Kopien verlinkter Websites, die Raindrop.io ohnehin anlegt.

Stella ist auch per MCP-Server erreichbar, sodass Nutzer ihre Lesezeichen über andere Anwendungen abfragen können. Die Funktion ist den Pro-Abonnenten von Raindrop.io vorbehalten und kostet rund 30 Euro im Jahr.

KI-Agenten ermitteln Regeln von römischem Brettspiel

Eine Forschungsgruppe der Universität Leiden hat mithilfe von KI die Regeln eines bislang unbekannten römischen Brettspiels rekonstruiert. Fotos des Spielsteins zeigen ein 21 × 14,5 Zentimeter großes Rechteck mit parallelen Linien, diagonalen Ecklinien und einer Mittellinie. Gespielt wurde darauf wohl mit kleinen runden Steinen. Mikroskopische Untersuchungen und 3D-Scans ergaben, dass der Stein um die Linien herum stärker abgenutzt war.

Auf Basis dieser Abnutzungsspuren ließen die Forscher zwei KI-Agenten gegeneinander spielen und so die Regeln ermitteln. Als Ausgangspunkt dienten Spielregeln, die von viel jüngeren Spielen bekannt waren. Die Spuren passen demnach am besten zu einem sogenannten Blockierspiel, bei dem es darum geht, den Gegner an der Bewegung zu hindern. Die ältesten bekannten Blockierspiele stammten bisher aus dem Mittelalter. Der Fund belegt nun, dass solche Spiele bereits Jahrhunderte früher gespielt wurden.

(igr)

Source link

Verwandte Themen:burnout Generative AI Journal KI-Update KIAgenten KIUpdate kompakt Künstliche Intelligenz RingKameras Roboter Sicherheit Sprachverarbeitung Von Wissenschaft

Inspohub