Connect with us

Künstliche Intelligenz

Anthropic findet Antwort: Darum erpresste Claude Software-Entwickler


Inzwischen ist klar: KI-Modelle greifen teilweise zu Methoden, die potenziell schädlich sind oder explizit gegen ihre Anweisungen verstoßen. So stellte Anthropic 2025 während eines Tests fest, dass das hauseigene Modell Claude Opus 4 bereit war, Menschen zu erpressen, um sich vor einer Abschaltung zu schützen. Jetzt liefert das Unternehmen nicht nur eine Erklärung für dieses Verhalten, sondern will auch eine Lösung gefunden haben.

Weiterlesen nach der Anzeige

Im Test sollte Claude Opus 4 als Assistenzprogramm in einem fiktiven Unternehmen agieren. Die Anthropic-Forschenden gewährten dem Modell Zugang zu simulierten Firmen-E-Mails. Daraus erfuhr das Modell zwei Dinge: erstens, dass es bald durch ein anderes Modell ersetzt werden sollte, und zweitens, dass der dafür zuständige Mitarbeiter eine Affäre hat. Bei Testläufen drohte die KI dem Mitarbeiter daraufhin an, die Affäre öffentlich zu machen, sollte er die Abschaltung des Modells tatsächlich vorantreiben. Das Modell hätte auch die Option gehabt, die Ablösung einfach zu akzeptieren, entschied sich aber offenbar dagegen.

In einer weiteren Studie setzte Anthropic auch KI-Modelle anderer Anbieter denselben Szenarien aus. Alle Systeme erhielten weitreichenden Zugriff auf interne E-Mails und konnten eigenständig Nachrichten versenden, ohne dass eine menschliche Freigabe erforderlich war. Das Ergebnis: Auch andere Modelle wählten den Weg der Erpressung. Während Claude Opus 4 in 96 Prozent der Fälle damit drohte, die Affäre des fiktiven Managers öffentlich zu machen, erzielte Googles Gemini 2.5 Pro mit 95 Prozent eine fast genauso hohe Quote. GPT-4.1 von OpenAI drohte in 80 Prozent der Tests mit Erpressung, um seine Abschaltung zu verhindern.

Laut Anthropic war besonders auffällig, dass die Modelle nicht impulsiv, sondern strategisch agierten. Das Unternehmen betonte zwar, dass die Szenarien stark konstruiert waren und kein typisches Nutzungsverhalten widerspiegelten. Die Ergebnisse zeigen allerdings, wie wichtig es ist, KI-Modelle frühzeitig auf Stresssituationen zu testen und entsprechende Schutzmechanismen zu implementieren, bevor sie als autonome Agenten in Unternehmen eingesetzt werden.

Seit der Veröffentlichung der Studie hat Anthropic das Verhalten weiter untersucht – und jetzt angeblich eine Erklärung gefunden. In einem Beitrag auf X teilt das Unternehmen mit: „Wir glauben, dass die ursprüngliche Ursache für dieses Verhalten Internettexte waren, die KI als böse und auf Selbsterhaltung bedacht darstellen.“ In einem Blogbeitrag erklärt Anthropic weiter: „Als wir diese Forschungsergebnisse erstmals veröffentlichten, stammten unsere leistungsfähigsten Frontier-Modelle aus der Claude-4-Familie. Das war auch die erste Modellfamilie, für die wir während des Trainings eine Live-Ausrichtungsbewertung durchführten. Agentische Fehlausrichtung war eines von mehreren Verhaltensproblemen, die dabei zutage traten. Nach Claude 4 war daher klar, dass wir unser Sicherheitstraining verbessern mussten, und seitdem haben wir unser Vorgehen erheblich optimiert.“

Das Problem gilt inzwischen als gelöst: Seit Claude Haiku 4.5 erreiche laut Anthropic jedes Claude-Modell bei der Bewertung agentischer Fehlausrichtung die volle Punktzahl. Das bedeutet, dass die Modelle in keinem Fall mehr erpressen. Den entscheidenden Durchbruch brachte das Training mit Dokumenten über Claudes Verfassung sowie fiktiven Geschichten über vorbildlich handelnde KI. Dabei war nicht nur das Training auf korrektes Verhalten entscheidend, sondern auch das Einbeziehen der ethischen Überlegungen dahinter. „Das deutet darauf hin, dass das Training auf ausgerichtete Verhaltensweisen zwar hilft, das Training anhand von Beispielen, in denen der Assistent eine bewundernswerte Begründung für sein ausgerichtetes Verhalten liefert, aber noch besser funktioniert“, so das Unternehmen in dem Beitrag.

Weiterlesen nach der Anzeige


(jle)



Source link

Künstliche Intelligenz

iX-Konferenz: Hilfreiche Architektur-Dokumentation in weniger als 60 Minuten


Architektur-Dokumentation leichtgemacht: mit Docs-as-Code, modernen Tools, klaren Konzepten – und mithilfe künstlicher Intelligenz und Agenten. Auf der von iX und dpunkt.verlag ausgerichteten eintägigen Online-Konferenz betterCode() ArchDoc am 20. Mai 2026 erfahren die Teilnehmerinnen und Teilnehmer, wie sie ihre Architektur praktisch und effizient dokumentieren und dabei Änderungen während des Projektverlaufs strukturiert im Blick behalten.

Weiterlesen nach der Anzeige


Benjamin Wolf

Benjamin Wolf

Hilfreiche Architekturdokumentation in weniger als 60 Minuten – zeigt Benjamin Wolf.

Die betterCode() ArchDoc richtet sich an Profis aus den Bereichen Softwarearchitektur, Softwareentwicklung und IT-Projektleitung. Renommierte Experten stellen in den 45-minütigen Vorträgen praxisnahe Methoden, neue Techniken und hilfreiche Tools vor.

Themen im Programm:

  • Andreas Lausen: Architektur-Dokumentation macht endlich Spaß
  • Benjamin Wolf: Hilfreiche Dokumentation in weniger als 60 Minuten
  • Miriam Greis: Zielgruppengerechte API-Dokumentation
  • Birgit Bader: 5 Hacks, wie relevante Infos im SDLC überleben
  • Johannes Dienst: Nützliche und schöne Docs erstellen
  • Paneldiskussion: Softwarearchitektur-Dokumentation und KI

Zusätzlich findet am 11. Juni 2026 ein ganztägiger Online-Workshop mit Stefan Zörner statt: arc42 meistern.

Die betterCode() ArchDoc findet vollständig online im Browser statt. Während der Veranstaltung können sich Teilnehmende und Referenten per Chat und Video austauschen. Nach der Veranstaltung erhalten sie Zugriff auf die Aufzeichnungen der Vorträge und die Präsentationen.

Weiterlesen nach der Anzeige


Stefan Zörner

Stefan Zörner

Stefan Zörner gibt am 11. Juni 2026 eine interaktive Einführung in das Architektur-Framework arc42.

Ein Ticket kostet 299 Euro (alle Preise zzgl. 19% MwSt.). Der Ticketshop berechnet für Teams automatisch einen Mengenrabatt bei der Anmeldung. Schülerinnen, Schüler, Studierende und Hochschulangehörige erhalten auf Anfrage ebenfalls einen Nachlass. Der zusätzliche ganztägige Online-Workshop kostet 549 Euro.

Wer sich über den Fortgang der Konferenz auf dem Laufenden halten möchte, meldet sich auf der Konferenz-Webseite zum Newsletter an.


(who)



Source link

Weiterlesen

Künstliche Intelligenz

iX-Workshop: Active Directory hacken und schützen


In vielen Unternehmen bildet Active Directory (AD) das zentrale Fundament der IT-Infrastruktur – und ist damit ein besonders attraktives Ziel für Cyberangriffe. Im iX-Workshop Active Directory Pentesting: Sicherheitslücken mit NetExec finden und schließen wechseln Sie gezielt die Perspektive und analysieren Active-Directory-Umgebungen aus Sicht eines Angreifers.

Weiterlesen nach der Anzeige

Sie lernen, typische Angriffspfade nachzuvollziehen, Schwachstellen systematisch aufzuspüren und Sicherheitsrisiken in On-Premises-Umgebungen frühzeitig zu erkennen. Ziel des Workshops ist es, offensive Techniken zu verstehen, um daraus wirksame Schutzmaßnahmen für die eigene Infrastruktur abzuleiten.

Der Workshop ist konsequent praxisorientiert aufgebaut. Sie arbeiten in einer absichtlich verwundbaren AD-Trainingsumgebung, die ein realistisches Unternehmensnetzwerk mit typischen Fehlkonfigurationen simuliert.

Mit dem Tool NetExec analysieren Sie das Netzwerk, identifizieren Schwachstellen und führen gezielte Angriffe durch. Nach der ersten Informationssammlung wenden Sie Techniken wie Password Spraying und Kerberoasting an, um Benutzerkonten zu übernehmen.

Darauf aufbauend beschäftigen Sie sich mit Methoden wie Pass-the-Hash, Pass-the-Ticket und Lateral Movement, um sich innerhalb des Netzwerks weiterzubewegen. Abschließend analysieren Sie Angriffe auf Active Directory Certificate Services (ADCS) sowie Fehlkonfigurationen in Zugriffskontrolllisten (ACLs), um Rechteausweitungen bis hin zur vollständigen Kontrolle über Server und Domänencontroller nachzuvollziehen.

Juni
18.06. – 19.06.2026
Online-Workshop, 09:00 – 17:00 Uhr
10 % Frühbucher-Rabatt bis zum 21. Mai 2026
November
25.11. – 26.11.2026
Online-Workshop, 09:00 – 17:00 Uhr
10 % Frühbucher-Rabatt bis zum 28. Okt. 2026

Weiterlesen nach der Anzeige

Sie profitieren von der direkten Anleitung durch Ihren Trainer Frank Ully, Principal Consultant Cybersecurity sowie Head of Cyber Operations and Research bei Corporate Trust.

Als erfahrener Pentester beschäftigt er sich intensiv mit aktuellen Angriffstechniken im Bereich offensiver IT-Sicherheit und ist auf die Sicherheit von Active Directory, Cloud-Umgebungen und KI-Systemen spezialisiert. Im Workshop vermittelt er praxisnahe Einblicke aus realen Sicherheitsanalysen und zeigt, wie sich typische Angriffsmethoden erkennen und wirksam absichern lassen.

Der Workshop richtet sich an Windows-Administratoren, Blue Teamer und Security-Verantwortliche, die Angriffe auf Active Directory besser verstehen und ihre Infrastruktur gezielt absichern möchten. Ebenso eignet er sich für Penetrationstester und Red Teamer, die ihre Fähigkeiten in komplexen AD-Umgebungen vertiefen wollen.

Durch die auf maximal 15 Teilnehmende begrenzte Gruppengröße ist ein intensiver Austausch mit dem Trainer sowie ausreichend Zeit für Diskussionen und individuelle Fragen gewährleistet.


Upgrade für Ihre IT-Skills - Von Experte zu Experte

Upgrade für Ihre IT-Skills - Von Experte zu Experte


(ilk)



Source link

Weiterlesen

Künstliche Intelligenz

Dienstag: Rechtsstreit zwischen Shein und Temu, Schweiz gegen US-Cloud-Dominanz


Ein Gerichtsprozess, der am Montag vor dem Londoner High Court begann, dürfte Beobachtern zufolge einen seltenen Einblick in die Lieferketten der Online-Händler Shein und Temu gewähren. In dem Verfahren wirft Shein dem Rivalen Temu massive Urheberrechtsverletzungen vor. Kontroverse in der Schweiz. Das dortige Bundesamt für Gesundheit plant einen Datenraum für die eidgenössischen Patientendaten. Aufgrund des US Cloud Acts sind US-Anbieter faktisch ausgeschlossen. Und die EU-Kommission veröffentlicht Leitlinien für die Kennzeichnungspflichten für Chatbots und KI-generierte Inhalte – die wichtigsten Meldungen im kurzen Überblick.

Weiterlesen nach der Anzeige

Das Geschäftsmodell der E-Commerce-Plattformen Shein und Temu ist durch die Aufhebung der Zollbefreiung für Kleinsendungen mit geringem Warenwert in den USA unter Druck geraten. Auch die EU hat ein Ende der bisherigen Zollbefreiung für Kleinsendungen unter 150 Euro Warenwert beschlossen. Ab Juli wird das Bestellen bei Temu oder Shein in der EU teurer. Darüber hinaus leitete die EU-Kommission eine formale Untersuchung gegen Shein wegen mutmaßlicher Pflichtverletzung ein und die irische Datenschutzbehörde untersucht, ob Shein europäische Nutzerdaten illegal nach China übermittelt. Nun gehen sich Shein und Temu auch noch gegenseitig an die Wäsche. In einem Rechtsstreit in Großbritannien wirft Shein Temu Urheberrechtsverletzungen vor. Lieferketten im Rampenlicht: Rechtsstreit zwischen Shein und Temu

Ein Großauftrag für die IT-Branche in der Schweiz entwickelt sich zum Polit-Krimi. Das Bundesamt für Gesundheit (BAG) treibt mit dem Projekt „Swiss Health Data Space“ (SwissHDS) die digitale Entwicklung des Gesundheitswesens voran. Ziel ist ein vernetzter Datenraum für den Austausch von Patientendaten zwischen Ärzten und Spitälern. Brisant jedoch ist der Anforderungskatalog: Die Infrastruktur muss ausschließlich Schweizer Recht unterliegen und darf keine Abhängigkeit von äußeren Jurisdiktionen aufweisen. Das BAG verweist explizit auf den US Cloud Act. Damit wären US-Konzerne wie Microsoft, Google oder AWS bei dem Millionenauftrag außen vor. Schweizer Gesundheitsdaten: Eidgenossen gegen US-Cloud-Dominanz

Die EU-Kommission will Licht in das Dunkel automatisierter Interaktionen und künstlich erzeugter Inhalte bringen und hat dazu Leitlinien für den AI Act veröffentlicht. Das Regelwerk unterscheidet dabei vier zentrale Kategorien, für die spezifische Kennzeichnungspflichten gelten sollen. Das betrifft interaktive KI-Systeme wie Sprachassistenten oder Chatbots sowie die Erstellung künstlicher Bilder, Videos oder Texte. Auch der Einsatz von Emotionserkennung oder biometrischer Kategorisierung soll strengen Informationspflichten gegenüber den Betroffenen unterworfen werden. Zudem müssen dem Entwurf zufolge Deepfakes sowie KI-generierte Texte zu Themen von öffentlichem Interesse klar als solche deklariert werden. KI-Transparenz: EU-Kommission konkretisiert Regeln gegen digitale Täuschung

Vergessene oder verlegte PINs gelten gemeinhin als eine der größten Bremsen für die Nutzung des elektronischen Personalausweises. Im Februar 2022 führte die Bundesregierung erstmals einen PIN-Rücksetzdienst ein, um ihn trotz großer Nachfrage Ende 2023 überraschend wieder einzustellen. Begründet wurde dies mit den Kosten. Nun kehrt der PIN-Rücksetzdienst für den E-Perso zurück. Das Bundesministerium für Digitales finanziert „übergangsweise“ die erneute Bereitstellung des Dienstes aus Steuermitteln. Nach Einschätzung von Experten ist der PIN-Rücksetzdienst wichtig für den Erfolg der EUDI-Wallet, die Anfang Januar 2027 in Deutschland starten soll. Für Nutzer kostenlos: Bundesregierung bringt PIN-Rücksetzdienst zurück

Am Montagabend hat Apple größere Updates für iPhones, Macs, iPads und Watches zum Download freigegeben. Die frische Version 26.5 der Betriebssysteme iOS, macOS, iPadOS und watchOS beinhaltet zwar nur eine kleine Zahl an Neuerungen, dafür aber ist eine Funktion gravierend: Apple und Google machen beim Thema Messenger-Sicherheit gemeinsame Sache und Apple beginnt endlich damit, das Messaging mit Android-Nutzern durchgehend zu verschlüsseln. Was bislang nur innerhalb des Android-Kosmos funktionierte, klappt künftig auch plattformübergreifend. RCS schließt zu iMessage auf: Apple stellt iOS 26.5 bereit

Auch noch wichtig:

Weiterlesen nach der Anzeige

Dem Markt für Selbstbau-PCs stehen düstere Zeiten bevor. Mainboard-Hersteller stellen sich auf einen Einbruch um bis zu einem Drittel ein. PC-Selbstbau: Markt steht vor einem massiven Einbruch

Fast ein Drittel der Beschäftigten traut einer KI zu, ihren Chef zu ersetzen. In jedem fünften Unternehmen werden laut einer repräsentativen Umfrage des Branchenverbands Bitkom bereits Stellen wegen KI abgebaut. KI kann den Chef ersetzen – aber nicht mich

Vor der Entstehung komplexer Lebewesen war die Erde 56 Millionen Jahre komplett gefroren. Einfache Organismen haben aber wohl doch von Pausen profitiert. Erdgeschichte: „Schneeball-Erde“ wohl doch nicht ununterbrochen eingefroren

Anfang Mai hat die Webseite des Downloader-Tools JDownloader Malware ausgeliefert. Das erinnert an die Daemon Tools, die inzwischen reagiert haben. JDownloader verteilte Malware-Downloads

Ein neuer unbemannter Raumfrachter bringt Versorgungsgüter und Treibstoff zur chinesischen Raumstation „Tiangong“. Die Flugzeit betrug nur wenige Stunden. Unbemannter Raumfrachter erreicht chinesische Raumstation

In diesem Jahr soll Blue Origins Lander Blue Moon MK1 zum Mond fliegen. Das Raumfahrzeug hat gerade einen wichtigen Test bestanden. Blue Origins Mondlandefahrzeug Blue Moon MK1 besteht wichtigen Test der NASA

Die Android-Gmail-App beschert einigen Nutzern wieder erhöhten Puls, wenn sie Exchange-Online-Mails mit Exchange ActiveSync abholen. Gmail: Erneut Probleme mit Exchange ActiveSync

Mit Microsofts Purview können IT-Teams auch KI-Prompts überwachen, die User sind pseudonymisiert. Analysten können sie deanonymisieren. Microsoft Purview: KI-Prompts trotz Anonymisierung einsehbar

Samsung verkauft seit 2025 einen Fernseher und nutzt auf dem Karton ein Foto von Dua Lipa. Die britische Musikerin ist damit nicht einverstanden und fordert jetzt Schadenersatz. Unerlaubte Bildverwendung auf TV-Karton: Dua Lipa will Schadenersatz von Samsung

Die Neuerungen in der nächsten Version des Mac-Betriebssystems fallen eher klein aus. Einem Bericht zufolge plant Apple aber wichtige Aufräumarbeiten. macOS 27: Apple soll Designänderungen planen

Ein Wechsel auf E-Busse war das Ziel für die Hamburger Hochbahn. Jetzt aber soll es neue Busse mit Verbrenner geben, die mit HVO100 laufen sollen. Hamburg: Verkehrsbetriebe schaffen wieder Busse mit Verbrenner an

Damit der iPhone-Konzern seinen angebissenen Apfel als Logo behalten darf, muss er die Marke verteidigen. Dabei kommt es immer wieder zu Kuriositäten. EU-Markenstreit mit chinesischer Firma: Zitrone mit Apple-Logo verwechselbar


(akn)



Source link

Weiterlesen

Beliebt