Apps & Mobile Entwicklung

KI-Sicherheit: Wie Anthropic den Claude-Modellen das Erpressen abgewöhnt

Es waren Ergebnisse aus Anthropics Sicherheitstests, die im letzten Jahr für Aufsehen sorgten: In experimentellen Szenarien tendierten die Claude-Modelle zu Erpressungsversuchen, etwa wenn sie abgeschaltet werden sollten. Eine aktuelle Untersuchung nennt nun Ursache und Gegenmaßnahme.

„AI ist böse“ steckte in den Trainingsdaten

Das zentrale Problem sind laut Anthropic die Trainingsdaten. „Wir glauben, der ursprüngliche Grund für das Verhalten waren Internettexte, die KI als böse und auf Selbsterhaltung bedacht porträtierten“, so Anthropic. Es sind demnach also Science-Fiction-Geschichten rund um Systeme wie Shodan aus System Shock und HAL 9000 aus dem Film 2001: Odyssee im Weltraum, die zu etwas führten, was als „agentic misalignment“ beschrieben wird.

Aussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll

Seit Claude Haiku 4.5 (Haiku ist die kleinste Modellvariante von Anthropic) treten solche Vorfälle aber praktisch nicht mehr auf. Erpressungsversuche wurden in den Testszenarien nicht mehr beobachtet, während ältere Modelle wie Opus 4 in manchen Fällen eine Quote von bis zu 96 Prozent erreichen.

KI-Modell soll ethische Beurteilungen lernen – und nicht nur korrekte Antworten

Erreicht wurde das durch ein verändertes Post-Training. Bei Claude 4 nutzte Anthropic größtenteils reguläres Reinforcement Learning from Human Feedback (RLHF). Im Prinzip wurde ein Modell bei diesem Prozess für korrekte Antworten belohnt und falsche Antworten bestraft. Die agentische Nutzung von Tools spielte dabei aber keine Rolle.

Dieses Verfahren war aber nicht geeignet, um das fehlgeleitete Verhalten abzustellen.

Als wirkungsvoll erwies sich, Claude mit Beispielen zu trainieren. Das Modell sollte in dem Prozess also lernen, warum bestimmte Aktionen besser sind als andere und manche nicht gewünscht sind. „Insgesamt bestätigt sich unser Eindruck, (…) dass die Vermittlung von Grundsätzen, die einem konformen Verhalten zugrunde liegen, effektiver sein kann als das Training anhand der Demonstration von diesem Verhalten“, heißt es im Blog-Beitrag.

Eine Verfassung für Claude als Leitfaden

So einen Ansatz verfolgt Anthropic schon länger. Im März hatte das Unternehmen eine Verfassung für Claude vorgestellt. Diese enthält die Werte und Normen, die man dem KI-System vermitteln will. Es geht also um ethische Grundwerte und damit eher abstrakte Normen.

Um solches Verhalten zu trainieren, hat Anthropic einen „Difficult-Advice“-Datensatz vermittelt. Der Inhalt: Ambivalente Situationen für Nutzer, in denen sie ein legitimes Ziel erreichen können, dafür aber Normen verletzen oder Kontrollmechanismen umgehen müssen. In diesem Kontext wird der KI-Assistent mittels Supervised Learning darauf trainiert, dem Nutzer differenzierte Antworten zu geben. Neu an diesem Ansatz ist laut Anthropic, dass das KI-Modell nicht selbst in dem ethischen Dilemma steckt, sondern den Nutzer berät.

Laut Anthropic ist diese Vorgehensweise wirkungsvoll, weil der Datensatz ethisches Schlussfolgern trainiert – und nicht auf korrekte Antworten abzielt.

Source link

Verwandte Themen:abgewöhnt Anthropic ClaudeModellen das den erpressen KISicherheit Wie

Up Next

Wie bei Lunar Lake: Der RAM on Package kommt mit Razor Lake zurück

Nicht verpassen

Android 17 für Galaxy S26: Samsung startet Beta von One UI 9 mit vielen Neuerungen

Apps & Mobile Entwicklung

Wie bei Lunar Lake: Der RAM on Package kommt mit Razor Lake zurück

Intel Lunar Lake war ein erfolgreicher Prozessor, der als x86-Produkt erstmals RAM direkt neben der CPU anbot. Das soll Zukunft haben, wenngleich diese nicht sofort stattfindet, sondern erst mit der Generation Intel Razor Lake. Die Zielgruppe wird dann jedoch genau am anderen Ende angesiedelt: im hochpreisigen AX-Bereich.

Intel AX = „die große APU“

AX-Prozessoren sollte es schon einige Male geben respektive waren in Planung, dazu gekommen ist es aber nie. AX steht bei Intel für so etwas wie „die große APU“, also ein Prozessor mit großer integrierter Grafikeinheit. Zuletzt hieß es bereits, dass dieser in der neuen Generation Intel Core Ultra 400 erscheinen werde, ein Nova Lake-AX mit bis zu 48 Xe-Cores wurde entsprechend in der Gerüchteküche gehandelt. Ohne finales Produkt wurde Nova Lake-AX aber vor längerer Zeit gestrichen.

Nach Nova Lake kommt Razor Lake

Die Gerüchteküche ist bereits auf den Nachfolger umgeschwenkt: Razor Lake. Auch hier gehen aber Wunsch und Realität mitunter auseinander, eine erhoffte AX-Version mit 48 Xe-Cores wird es wohl nicht geben, zwei Varianten mit deutlich weniger Shadern sollen aber existieren.

The AX series use a large iGPU and may not be a 48 Xe configuration. Razor Lake -AX has two configurations and neither are as large as that.

The ones with NVIDIA iGPU are different and come later than Razor Lake -AX.

— Jaykihn (@jaykihn0) April 27, 2026

Hinzu kommt nun ein Gerücht, das in chinesischen Foren kursiert und durch andere Insider mit guter Quellenlage verbreitet wurde. Demnach kommt MOP zurück, das für Memory on Package steht, also RAM auf dem gleichen Chip wie der Prozessor und die Grafikeinheit. Das hat bei Lunar Lake bereits funktioniert, offenbarte aber auch Optimierungsspielraum. Diesen könnte Intel bei Razor Lake-AX Ende 2027 umsetzen, wenngleich die Zielgruppe bei AMD Strix Halo und dessen Nachfolger liegt, also im absoluten High-End-Segment. Hier kann viel Speicher mit hoher Bandbreite bei naher Platzierung zur GPU ein wichtiges Argument sein.

Aktuell schwebt darüber jedoch das Damoklesschwert der Speicherpreise, solche Lösungen mit großem Speicherausbau würden nur in Produkten jenseits der 3.000-Euro-Marke existieren. Notebooks und Mini-PCs mit AMD Strix Halo und 128 GByte RAM kennen zuletzt auch nur steigende Preise. Dass sich das bis Ende 2027 bessert, wird mit jedem Tag etwas unwahrscheinlicher.

Auf Razor Lake folgt Titan Lake und Serpent Lake

Und dann wäre da ja auch noch Intels Prozessor plus Nvidias Grafikeinheit, der aus der Kooperation beider Unternehmen erwachsen wird. Dieser wird unter dem Codenamen Serpent Lake entwickelt und soll nach Razor Lake erscheinen. Serpent Lake bedient sich an Titan Lake, dem Nachfolger von Razor Lake mit Fokus auf das mobile Umfeld. Die CPU dürfte letztlich identisch sein, nur dass Titan Lake mit Intel-GPU erscheint, Serpent Lake mit Nvidia-GPU. Vor 2028 dürfte davon aber nichts zu sehen sein.

Viel Spielraum für Anpassungen und/oder Streichungen in der Roadmap

Bis all diese Vorhaben letztlich umgesetzt sind, wird noch viel Zeit vergehen und so gibt es viel Spielraum für die eine oder andere Anpassung im Portfolio, was schnell Streichungen von Produkten nach sich ziehen kann.

Gerade in den letzten Jahren sind viele Projekte zu den Akten gelegt worden. Die gesamte Royal-Core-Serie wurde nie veröffentlicht, auch Beast Lake, Cobra Cores und andere sind nicht erschienen. Dazu gesellen sich die fehlenden Desktop-Chips von Intel Meteor Lake und Panther Lake, die mal geplant aber nie veröffentlicht wurden.

Potenzielle Intel-Roadmap (teilweise unbestätigt)

Source link

Apps & Mobile Entwicklung

Android 17 für Galaxy S26: Samsung startet Beta von One UI 9 mit vielen Neuerungen

Samsung hat die erste Beta-Phase für seine eigene Oberfläche One UI 9 auf Basis von Android 17 angekündigt. Wie schon beim Vorgänger wird auch bei diesem das aktuelle Flaggschiff den Anfang machen, in diesem Fall das Galaxy S26. Mit der Ankündigung hat das Unternehmen gleichzeitig erste Neuerungen der Oberfläche vorgestellt.

Der südkoreanische Hersteller will dabei nach eigenen Angaben noch in dieser Woche mit dem Beta-Programm starten, dann soll das erste Beta-Image für das Galaxy S26 (Test) veröffentlicht werden. Die neue Version der hauseigenen Benutzeroberfläche basiert auf Android 17 und soll eine intuitivere sowie stärker personalisierte mobile Nutzung ermöglichen. Dazu sollen unter anderem neue und erweiterte Kreativwerkzeuge beitragen. Darüber hinaus verspricht Samsung Verbesserungen bei Anpassungsmöglichkeiten und der Barrierefreiheit sowie einen erweiterten Schutz vor Sicherheitsbedrohungen.

Unter anderem soll „Samsung Notes“ zahlreiche neue kreative Werkzeuge erhalten. Dazu zählen dekorative Klebebänder sowie zusätzliche Stile für Linien bei der Stifteingabe. Ziel sei es laut Samsung, das Erstellen und Gestalten von Notizen vielseitiger und abwechslungsreicher zu gestalten. Zudem bietet die neue Version der Kontakte-App künftig einen direkten Zugriff auf „Creative Studio“, über das sich personalisierte Profilkarten erstellen lassen, ohne zwischen mehreren Anwendungen wechseln zu müssen.

Überarbeitetes Quick Panel

Samsung hat außerdem die Leiste für Schnellzugriffe überarbeitet, die Anwendern künftig mehr Kontrolle über die Darstellung bieten soll. So lassen sich Helligkeit, Ton und Media-Player künftig unabhängig voneinander anpassen. Zusätzlich stehen weitere Größenoptionen bereit, mit denen sich das Panel stärker an individuelle Vorlieben anpassen lässt.

Verbesserte Barrierefreiheit

In den ersten Informationen hebt Samsung insbesondere die Verbesserungen im Bereich der Barrierefreiheit hervor. So soll eine anpassbare Geschwindigkeit für die „Mouse Key“-Funktion eine flüssigere Steuerung des Mauszeigers ermöglichen. Das „TalkBack“-Paket soll zudem mehrere, bislang nicht näher benannte Funktionen zusammenführen, die bisher getrennt von Google und Samsung angeboten wurden. Mit der ebenfalls neuen Funktion „Text Spotlight“ soll ausgewählter Text in einem schwebenden Fenster größer oder deutlicher dargestellt werden, was die Lesbarkeit verbessern soll.

Mehr Schutz vor gefährdenden Apps

Mit One UI 9 will der südkoreanische Hersteller zudem den Schutz vor risikoreichen Apps und potenziellen Bedrohungen ausbauen. Erkennt das System eine solche Bedrohung, soll der Anwender künftig gewarnt werden, zusätzlich blockiert die Software die Installation oder Ausführung der jeweiligen App und schlägt deren Löschung vor.

Beta-Image noch diese Woche für das Galaxy S26

Besitzer eines Smartphones der Galaxy-S26-Serie aus ausgewählten Ländern können sich ab sofort über die Members-App von Samsung für die Teilnahme am Beta-Programm von One UI 9 registrieren. Neben Großbritannien, Indien, Korea, Polen und den USA gehört auch Deutschland zu den unterstützten Regionen. Das erste Beta-Image soll noch in dieser Woche bereitgestellt werden.

Source link

Apps & Mobile Entwicklung

Apple iOS 26.5: Verschlüsselte RCS-Nachrichten zwischen iPhone und Android

Apple hat iOS 26.5 veröffentlicht, das verschlüsselte RCS-Nachrichten zwischen iPhone- und Android-Nutzern ermöglicht. Aktuell ist das Ende-zu-Ende-verschlüsselte RCS-Messaging noch als Beta-Funktion gekennzeichnet.

iPhone-Nutzer können mit dem vor Kurzem veröffentlichten Update 26.5 erstmals verschlüsselte RCS-Konversationen mit Android-Anwendern führen. Wie üblich hat Apple hierbei nicht nur iOS mit einem Update auf Version 26.5 bedacht, sondern auch Aktualisierungen für iPadOS, macOS, watchOS, tvOS und visionOS veröffentlicht.

Verschlüsseltes RCS-Messaging als Beta-Funktion

Um das aktuell als Beta-Funktion gekennzeichnete RCS-Messaging nutzen zu können, muss das iPhone auf Version 26.5 aktualisiert worden sein und auf dem Android-Gerät die aktuellste Version von Google Messages laufen. Ferner müssen die Mobilfunkanbieter Ende-zu-Ende-verschlüsselte RCS-Nachrichten unterstützen, was in Deutschland bei der Telekom, O2 und 1&1 der Fall ist, während Vodafone RCS-Verschlüsselung noch nicht unterstützt.

Aber wie erkennt man, ob eine RCS-Unterhaltung mit einer Ende-zu-Ende-Verschlüsselung abläuft? Dies wird in der Nachrichten-App auf dem iPhone durch ein „Schloss“-Symbol angezeigt, wie Apple im Rahmen eines Blogbeitrages erklärt. Während das iPhone-exklusive iMessage blaue Nachrichtenblasen benutzt, bleibt es auch bei verschlüsselten RCS-Nachrichten bei grünen Textblasen. Hierbei ist die Verschlüsselung bei RCS-Konversationen standardmäßig aktiviert, was laut Apple nach und nach auf neue und bereits laufende Chats ausgerollt wird.

So sieht eine verschlüsselte RCS-Unterhaltung in iMessage aus. (Bild: Apple)

Weitere Änderungen von iOS 26.5

Die weiteren Neuerungen von iOS 26.5, das Apple am Montagabend veröffentlicht hat, umfassen das Hintergrundbild „Pride-Luminanz“, das auf Wunsch gesondert geladen werden kann. Darüber hinaus sprechen die Release Notes wie üblich etwas unspezifisch von „Verbesserungen, Fehlerbehebungen und Sicherheitsupdates“. Ferner gibt es in der Apple-Maps-App einen neuen „Empfohlene Orte“-Bereich.

Source link