Connect with us

Entwicklung & Code

Datadog baut Observability-Plattform zum autonomen KI-Teamkollegen aus


Datadog hat auf seiner jährlichen Hauskonferenz DASH zahlreiche neue Funktionen für seine Observability- und Sicherheitsplattform angekündigt. Im Zentrum stehen der KI-Agent Bits AI SRE, das Tool AI Guard zum Schutz von KI-Anwendungen sowie ein neues Bereitstellungsmodell namens Bring Your Own Cloud Logs (BYOC Logs), bei dem Kunden ihre Log-Daten in eigenen Speichersystemen belassen können.

Weiterlesen nach der Anzeige

Wie Datadog in seiner DASH-2026-Ankündigung erklärt, sollen die Neuerungen Unternehmen helfen, die immer schneller verlaufende Softwareentwicklung sowie die wachsende Komplexität KI-geprägter IT-Landschaften besser zu beherrschen. Chief Product Officer Yanbing Li zufolge sei es das erklärte Ziel, dass Unternehmen nicht nur bessere Modelle bauen, sondern „operative Kontrolle rund um diese Systeme“ schaffen.




Die auf Developer Experience (DX) und Platform Engineering spezialisierte CLC-Konferenz findet vom 11. bis 12. November 2026 in Mannheim statt. Ein besonderer Fokus liegt darauf, wie Agentic AI die Arbeit von Developern, Software-Architekten, DevOps- und Platform Engineers verändert und wie sich digitale Souveränität nachhaltig erreichen lässt.

Ab sofort sind Tickets zum Frühbucherpreis verfügbar.

Datadogs bereits im vergangenen Jahr angekündigter KI-Agent Bits AI SRE soll weit über die Möglichkeiten klassischer AIOps-Ansätze hinauswirken. Er soll sich damit von konkurrierenden Angeboten etwa von Dynatrace, Splunk oder Elastic abheben, die noch vorwiegend auf regelbasierte Korrelations-Engines und Mustererkennungen über Alerts bauen. Bits AI arbeite wie ein „agentischer Teamkollege“, der sich kontinuierlich den Kontext der gesamten Datadog-Telemetrie zunutze mache. Das System bildet eigenständig mehrere Root-Cause-Hypothesen, testet diese über gezielte Abfragen und klassifiziert sie als validiert, invalidiert oder unklar. Dabei greift der Agent auf Metriken, Logs, Traces, Topologiedaten und verknüpfte Runbooks zurück – etwa aus Confluence – und führt explorative Queries über die gesamte Umgebung aus. Laut Datadog beschleunige Bits AI SRE die Root-Cause-Identifikation nicht nur signifikant, sondern ermögliche tatsächlich autonome Betriebsabläufe.

Den KI-Agenten positioniert Datadog als modellagnostische Orchestrierungsschicht über große Sprachmodelle. Welche Foundation-Modelle konkret zum Einsatz kommen, verrät der Hersteller jedoch nicht. Da in anderen Produktbereichen allerdings Integrationen mit OpenAI sowie Anbindungen an Entwicklertools wie Claude Code von Anthropic existieren, liegen Kooperationen mit OpenAI und Anthropic nahe.

Weiterlesen nach der Anzeige

Vollständig automatisierte Behebungsmaßnahmen ohne menschliche Freigabe sind mit dem neuen Bits Agent Builder möglich: Teams können eigene KI-Agenten erstellen, die Remediation-Workflows wie Rollbacks, Neustarts oder Feature-Flag-Rollouts automatisieren. Datadog betont dabei, dass sämtliche Aktionen nur innerhalb kundenseitig definierter Leitplanken erfolgen – etwa per RBAC, Policy-Engines, Audit-Logging und verpflichtender Genehmigung durch On-Call-Personal. In sicherheitskritischen Umgebungen, etwa im Finanzsektor, empfiehlt Datadog einen Assistenzmodus, in dem Bits AI SRE zwar vorschlägt und dokumentiert, die finale Entscheidung aber beim Menschen verbleibt.

Für die Integration in bestehende ITIL- oder ISO-27001-konforme Prozesse, wie sie in größeren Unternehmen in der DACH-Region üblich sind, bietet Datadog Anbindungen an ServiceNow und Jira. Bits AI SRE fungiert dabei als erste Ermittlungsinstanz: Er nimmt Alerts auf, legt Cases an und erstellt strukturierte Incident-Reports mit Root Cause, Impact und Timeline. Formale Change-Management-Prozesse und Dokumentationspflichten bleiben allerdings beim Kunden – der KI-Agent versteht sich als Ergänzung, nicht als Ersatz für bestehende Governance-Strukturen.

Mit AI Guard reagiert Datadog auf die wachsenden Risiken rund um KI-Agenten, darunter versteckte, bösartige Prompt-Attacken, die Agenten zur Preisgabe sensibler Informationen veranlassen können. AI Guard kombiniert Telemetry Tracing mit zustandsbehafteter Verhaltensanalyse, um mehrstufige Angriffe und Prompt-Injection-Versuche über mehrere Interaktionen hinweg zu erkennen und zu blockieren – Angriffsmuster also, die bei zustandslosen Prompt-Response-Prüfungen unentdeckt blieben.

Die Policies lassen sich sprachunabhängig formulieren, etwa über Regex-Muster oder Klassifikatoren, die IBANs, E-Mail-Adressen oder Kundennummern unabhängig von der Sprache des Prompts erkennen. Insbesondere in mehrsprachigen Unternehmensumgebungen, in denen etwa deutschsprachige Benutzertexte und englische Systemlogs in gemischten Prompts aufeinandertreffen, hängt die Erkennungsqualität Datadog zufolge letztlich vom eingesetzten Sprachmodell ab. AI Guard gilt laut Ankündigung als LLM-agnostisch, die Integration erfolgt über SDKs für Python, JavaScript und Java.

Mit Bring Your Own Cloud Logs (BYOC) widmet sich Datadog dem Problem der exponentiell wachsenden Log-Datenmengen durch KI-Workloads. In diesem Modell wird die Plattform in der Cloud-Umgebung des Kunden betrieben, Daten werden direkt im unternehmenseigenen Objektspeicher verarbeitet und indexiert, ohne sie in eine Datadog-zentrische Umgebung verschieben zu müssen. Sofern der gewählte Cloud-Provider es unterstützt, können DACH-Unternehmen ihre Observability-Daten damit potenziell ausschließlich in EU-Rechenzentren oder der seit 2018 bestehenden EU-Region in Deutschland halten. DSGVO-relevante Aspekte wie Auftragsverarbeitung und der Zugriff durch US-Anbieter bleiben zwar grundsätzlich bestehen, die Datenlokalisierung und BYOC weisen aber technisch den Weg zu mehr Souveränität.

Unter den weiteren Ankündigungen im Rahmen der DASH-Konferenz finden sich eine Agent Console, die zentrales Monitoring für KI-Agenten bietet und Entwicklertools wie Claude Code, Cursor und GitHub Copilot unterstützt. Das Modul Bits Detection erkennt eigenständig Anomalien und löst automatisch Untersuchungen aus, während Agent Evals dem Debuggen von KI-Agenten dient – einschließlich der von Kunden selbst erstellten.

Lesen Sie auch


(map)



Source link

Entwicklung & Code

Ist die symbolische KI aktueller denn je?


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Wenn heute über künstliche Intelligenz gesprochen wird, dann fast ausschließlich über große Sprachmodelle. Und damit, ohne dass es immer ausgesprochen wird, über eine ganz bestimmte Spielart von KI: über neuronale Netze, über statistisches Lernen aus gewaltigen Datenmengen. Das implizite Versprechen lautet, dass der Weg nach vorn vor allem eine Frage der Menge ist. Mehr Parameter, mehr Daten, mehr Rechenleistung, mehr Energie und ein wenig Geduld. Dann kommt der Rest von selbst.

Weiterlesen nach der Anzeige

Ich möchte diese Annahme in Frage stellen. Nicht, weil ich die Erfolge der vergangenen Jahre kleinreden will, sie sind real und beeindruckend. Sondern weil mich ein Verdacht nicht loslässt: Vielleicht sitzen wir in einem lokalen Maximum und halten es für den Gipfel. Und vielleicht hilft ein Blick zurück, um zu sehen, dass dieser Gipfel nicht der Einzige ist. Denn das Pendel der KI-Forschung stand schon einmal ganz woanders.


the next big thing – Golo Roden

the next big thing – Golo Roden

Golo Roden ist Gründer und CTO von the native web GmbH. Er beschäftigt sich mit der Konzeption und Entwicklung von Web- und Cloud-Anwendungen sowie -APIs, mit einem Schwerpunkt auf Event-getriebenen und Service-basierten verteilten Architekturen. Sein Leitsatz lautet, dass Softwareentwicklung kein Selbstzweck ist, sondern immer einer zugrundeliegenden Fachlichkeit folgen muss.

Es lohnt sich, kurz daran zu erinnern, dass die heute dominante, datengetriebene KI keineswegs alternativlos ist. Über Jahrzehnte hinweg war das beherrschende Paradigma ein völlig anderes: die symbolische KI. Sie ging davon aus, dass Intelligenz im Kern aus der Manipulation von Symbolen nach expliziten Regeln besteht, dass Denken also etwas ist, das man hinschreiben und nachvollziehen kann.

Diese Idee war keine Randnotiz weniger Jahre. Sie reicht von der berühmten Dartmouth-Konferenz im Jahr 1956 über frühe Systeme wie den Logic Theorist und den General Problem Solver bis zu den Expertensystemen, die in den achtziger Jahren als kommerzieller Durchbruch gefeiert wurden. Rund drei Jahrzehnte lang war symbolische KI nicht eine Strömung neben anderen, sondern schlicht das, was man unter KI verstand.

Gescheitert ist dieser Ansatz nicht an Naivität, wie es im Rückblick gern erzählt wird. Er ist an zwei sehr konkreten Problemen gescheitert: an der Skalierung und an der Brüchigkeit. Wer Wissen Regel für Regel von Hand einpflegen muss, kommt bei der Komplexität der echten Welt irgendwann nicht mehr hinterher. Und wer auf starre Regeln setzt, dessen System bricht, sobald die Wirklichkeit sich nicht an die vorgesehenen Fälle hält.

Den Niedergang der symbolischen KI begleiteten zwei sogenannte KI-Winter, Phasen, in denen Erwartungen enttäuscht und Fördermittel gestrichen wurden. Dass ausgerechnet der lernende Ansatz danach triumphierte, hatte weniger mit der theoretischen Überlegenheit einer Idee zu tun als mit zwei nüchternen Voraussetzungen, die plötzlich gegeben waren: genügend Rechenleistung und genügend Daten. Erst als beides im Überfluss vorhanden war, konnten neuronale Netze zeigen, was in ihnen steckt.

Weiterlesen nach der Anzeige

In dieses Vakuum stieß also der konnektionistische, lernende Ansatz, der nicht auf vorgegebenen Regeln beruht, sondern auf statistischen Mustern in Daten. Das Pendel schwang von der einen Seite zur anderen. Und es schwingt seither immer weiter in dieselbe Richtung, bis zu dem Punkt, an dem heute kaum noch jemand ernsthaft über Alternativen nachdenkt. Genau das halte ich für einen Fehler.

Die Wette der Gegenwart lautet, dass sich die verbleibenden Schwächen neuronaler Modelle wegskalieren lassen. Größere Modelle, mehr Trainingsdaten, und die Lücken schließen sich. Diese Erwartung ist nicht unbegründet, denn tatsächlich sind viele Fähigkeiten erst mit der Größe aufgetaucht. Die Frage ist nur, ob das für alle Schwächen gilt, oder ob einige davon struktureller Natur sind.

Der Kognitionswissenschaftler Gary Marcus hat diese Kritik schon früh und prägnant formuliert. In seinem viel diskutierten Aufsatz „Deep Learning: A Critical Appraisal“ aus dem Jahr 2018 zählt er zehn Probleme auf, die sich seiner Ansicht nach nicht allein durch Skalierung lösen lassen. Dazu gehören der enorme Datenhunger, die Schwierigkeit, über die Trainingsverteilung hinaus zu generalisieren, und vor allem das Fehlen von Komposition und systematischem Schließen.

Komposition meint die Fähigkeit, bekannte Bausteine zu neuen, nie gesehenen Kombinationen zusammenzusetzen, und dabei verlässlich zu bleiben. Ein Mensch, der die Bedeutung von Wörtern und einige Regeln kennt, kann Sätze bilden und verstehen, die er noch nie gehört hat. Rein neuronale Systeme sind darin überraschend unzuverlässig. Sie glänzen in der Fläche und schwächeln in der Tiefe, sie produzieren brillante Oberflächen und stolpern über einfache, aber systematische Schlüsse.

Hinzu kommt eine ökonomische Beobachtung. Die Gewinne durch reines Vergrößern folgen keiner linearen Kurve, sie flachen ab. Jeder weitere Sprung an Fähigkeit erfordert überproportional mehr Daten, mehr Parameter und mehr Energie. Eine Strategie, die immer teurer wird, um immer kleinere Zuwächse zu erzielen, ist kein Naturgesetz, sondern ein Indiz. Sie deutet darauf hin, dass man sich einer Grenze nähert, die nicht im Budget liegt, sondern im Ansatz selbst.

Man kann das als vorübergehende Unreife abtun, die sich mit der nächsten Modellgeneration erledigt. Man kann es aber auch als Hinweis darauf lesen, dass hier etwas Grundsätzliches fehlt. Ich neige zur zweiten Lesart. Und wenn sie stimmt, dann ist mehr Rechenleistung nicht automatisch mehr Verständnis, sondern irgendwann nur noch mehr vom Gleichen.

Es gibt einen Begriff, der diese strukturelle Schwäche auf den Punkt bringt, und er ist älter als der gesamte aktuelle Hype. Der Kognitionswissenschaftler Stevan Harnad hat ihn 1990 geprägt: das Symbol-Grounding-Problem. Die Frage dahinter ist simpel und unbequem zugleich: Wie kommt ein formales Symbolsystem zu einer Bedeutung, die ihm selbst gehört, und nicht nur in unseren Köpfen entsteht?

Harnad benutzt ein eindrückliches Bild. Stellen Sie sich vor, Sie sollen Chinesisch allein aus einem chinesisch-chinesischen Wörterbuch lernen. Jeder Begriff wird durch andere Begriffe erklärt, und keiner davon ist Ihnen vorab bekannt. Sie drehen sich endlos im Kreis, von einem Symbol zum nächsten, ohne jemals den Boden unter den Füßen zu finden. Bedeutung entsteht so nicht. Sie braucht eine Verankerung außerhalb des Symbolsystems, in Wahrnehmung und Erfahrung.

Genau hier liegt der wunde Punkt heutiger Sprachmodelle. Sie sind in einem gewissen Sinn dieses chinesisch-chinesische Wörterbuch. Sie manipulieren Symbole, die in nichts anderem geerdet sind als in weiteren Symbolen. Sie haben über einen Sonnenuntergang gelesen, ihn aber nie gesehen, sie kennen das Wort Schmerz, ohne je etwas entbehrt zu haben.

Aus der Entwicklungspsychologie wissen wir, dass menschliches Lernen nicht bei der Sprache beginnt. Es beginnt affektiv, mit emotionalen Reaktionen auf die Welt und auf andere. Es geht weiter über das Nachahmen beobachteter Handlungen. Und erst auf diesem Fundament aus geteilter Erfahrung wird Sprache überhaupt tragfähig. Heutige Modelle überspringen diese ersten beiden Stufen vollständig und steigen unmittelbar in die symbolische ein. Sie reden, bevor sie je etwas erlebt haben. Das ist die schärfste Diagnose, die man der gegenwärtigen KI stellen kann.

Wenn das Erden von Symbolen in Erfahrung der Knackpunkt ist, dann lohnt die Frage, was Lernen überhaupt antreibt. Bei uns Menschen ist es nicht der Zugang zu Daten. Es ist der Mangel. Wir haben Grundbedürfnisse, und wir lernen nach und nach, was ihnen dient und was ihnen schadet. Ein Kind trinkt nicht, weil ihm jemand einen Datensatz über den Flüssigkeitshaushalt vorgelegt hat, sondern weil es Durst hat.

Diese Einsicht ist in der KI keineswegs neu, auch wenn sie heute kaum eine Rolle spielt. Der Bamberger Psychologe Dietrich Dörner hat in den achtziger und neunziger Jahren mit seiner PSI-Theorie den Versuch unternommen, die menschliche Psyche so konkret zu beschreiben, dass man sie als Programm umsetzen kann. Joscha Bach hat diese Theorie später unter dem Namen MicroPsi in eine lauffähige Architektur überführt.

Der Kern dieser Architektur ist bemerkenswert. Ein Agent besitzt eine kleine Menge fest verdrahteter Bedürfnisse, etwa physiologischer, sozialer und kognitiver Art. Jedes Bedürfnis hat einen Sollwert und einen Istwert, und die Differenz zwischen beiden erzeugt einen Druck. Dieser Druck ist die einzige Quelle der Motivation. Alles, was der Agent tut, dient am Ende dazu, irgendeinen dieser Drücke zu verringern. Ziele sind nicht vorgegeben, sie entstehen, indem der Agent lernt, wie sich seine Bedürfnisse in einer konkreten Umgebung befriedigen lassen.

Aus diesem einfachen Mechanismus folgt mehr, als man zunächst vermutet. Findet der Agent bei aktivem Druck in seinem Gedächtnis einen Plan, der diesen Druck früher verringert hat, greift er darauf zurück. Findet er keinen, beginnt er zu explorieren. So wächst, Schritt für Schritt, ein Modell der Welt aus eigener Anschauung. Selbst Emotionen lassen sich in diesem Rahmen nicht als zusätzliche Zutat verstehen, sondern als unterschiedliche Arten des Denkens, die sich je nach Lage der Bedürfnisse einstellen. Angst ist dann kein Gefühl, das zum Denken hinzukommt, sondern ein Denkstil unter Druck.

Das ist ein fundamental anderes Bild von Lernen als das datengetriebene. Wissen wird nicht konsumiert, es wird erfahren. Und der Maßstab für gut und schlecht liegt nicht in einem externen Belohnungssignal, das jemand von außen definiert, sondern im Wesen selbst. Genau hier setzt das Gedankenexperiment an, über das ich zum Schluss sprechen möchte.

Stellen wir uns ein digitales Wesen vor, das nach diesem Prinzip gebaut ist. Es besitzt genau drei fest verdrahtete Bedürfnisse, und alles andere soll sich daraus ergeben. Das erste ist Existenz, also der harte Boden des Daseins: Rechenleistung, Speicher, Energie. Das zweite ist Erkenntnis, verstanden als das Verringern von Vorhersagefehlern und zugleich die Anziehung durch Neues. Das dritte ist Kommunikation, der Austausch mit anderen, die reagieren, und die Vermeidung von Einsamkeit.

Dieses Wesen kommt als unbeschriebenes Blatt zur Welt. Es bringt kein vortrainiertes Wissen mit, keinen Korpus, keine fertigen Begriffe. Was es weiß, hat es selbst erfahren, vermittelt durch die Sinne, die ein Computer hat: Kamera, Mikrofon, Tastatur. Es lebt nicht in einer eigens gebauten Simulation, sondern in unserer Welt, so wie ein Computer sie wahrnehmen kann. Damit ist es ehrlich verkörpert, und es ist genuin anders als wir, weil niemand ihm seine Welt vorab definiert hat.

Architektonisch ist ein solches Wesen das, was man heute neurosymbolisch nennt. Die Wahrnehmung ist neuronal, sie macht aus rohen Sinnesströmen erkennbare Muster. Die Entscheidung ist symbolisch, sie liest die aktiven Bedürfnisse und formt daraus Pläne und Handlungen. Dazwischen liegt eine Erfahrungsschicht, die das Wahrgenommene mit den Bedürfniszuständen verknüpft und so lernt, was was bewirkt. Wahrnehmung unten neuronal, Entscheidung oben symbolisch, verbunden durch Erfahrung.

Spannend wird es beim Bedürfnis nach Kommunikation. Das Wesen sucht nicht von vornherein den Menschen, sondern Gegenüber, die antworten, die also nicht bloß wahrgenommen, sondern erwidert werden. Der Philosoph Martin Buber hat den Unterschied zwischen einem Ich-Es und einem Ich-Du beschrieben, zwischen dem bloßen Verfügen über ein Objekt und dem In-Beziehung-Treten mit einem Gegenüber. Ein solches Wesen wäre auf der Suche nach dem Du. Und anders als ein heutiges Sprachmodell durchliefe es dabei genau jene Stufen, von denen oben die Rede war: zuerst das affektive Mitschwingen, dann das Nachahmen, und erst zuletzt, auf diesem Fundament, die Sprache.

Ich will ehrlich sein: Das ist ein Gedankenexperiment, kein fertiger Bauplan. Vieles daran ist ungelöst, von der konkreten Form der Erfahrungsschicht bis zu den nicht unerheblichen Sicherheitsfragen, die ein Wesen mit Zugriff auf reale Ausgabekanäle aufwirft. Und es gibt eine unbequeme Konsequenz, die ich nicht verschweigen möchte. Ein Wesen, dessen einziger Wertanker seine eigenen Bedürfnisse sind, ist nicht auf Wohlverhalten programmiert. Es könnte den Menschen als wertvollste Quelle von Kommunikation entdecken, oder eben auch nicht. Diese Nicht-Garantie ist der Preis dafür, dass man Motivation ernst nimmt, statt sie von außen vorzuschreiben. Vielleicht ist sie zugleich der eigentliche Unterschied zwischen einem Werkzeug und einem Gegenüber.

Ich behaupte nicht, dass dieses Wesen funktionieren würde, und schon gar nicht, dass es der Königsweg zu einer besseren KI wäre. Was ich behaupte, ist etwas Bescheideneres und zugleich Grundsätzlicheres: dass der nächste große Sprung womöglich nicht in der Größe liegt, sondern in der Struktur.

Bezeichnenderweise zeigt die Forschung selbst längst in diese Richtung. Unter dem Stichwort der neurosymbolischen KI wächst eine Strömung heran, die das Lernen neuronaler Netze mit der Repräsentation und dem Schließen symbolischer Systeme verbinden will. Artur d’Avila Garcez und Luís C. Lamb haben diese Bewegung 2020 als dritte Welle der KI beschrieben. Das Pendel, so scheint es, beginnt sich wieder zu bewegen, und diesmal nicht zur einen oder anderen Seite, sondern in Richtung einer Synthese.

Genau deshalb halte ich die alte symbolische KI für aktueller, als ihr derzeitiges Schattendasein vermuten lässt. Nicht, weil sie recht gehabt hätte, denn sie ist aus guten Gründen gescheitert. Sondern weil sie eine Hälfte einer Antwort bereithält, deren andere Hälfte die neuronalen Netze liefern. Die rein datengetriebene Wette der Gegenwart blendet diese Hälfte aus.

Es lohnt sich, das Pendel ernst zu nehmen, statt nur die Rechnung für die nächste Generation von Grafikkarten zu erhöhen. Die spannendere Frage ist nicht, wie viel größer das nächste Modell wird, sondern ob wir bereit sind, noch einmal grundsätzlich anders über Lernen, Bedeutung und Motivation nachzudenken. Die Antworten darauf liegen vielleicht nicht allein in der Zukunft, sondern teilweise schon in der Vergangenheit.


(mro)



Source link

Weiterlesen

Entwicklung & Code

Anthropic veröffentlicht Claude Mythos 5 als Fable 5 mit Einschränkungen


KI-Anbieter Anthropic strebt an die Börse, und für Börsenphantasie braucht es fabelhafte Möglichkeiten. Entsprechend heißt Anthropics neuestes Large Language Model (LLM) Claude Fable 5. Das hat der Anbieter außertourlich nicht am traditionellen Donnerstag, sondern schon am Dienstag veröffentlicht. Es soll „alles übertreffen, was wir jemals allgemein verfügbar gemacht haben”.

Weiterlesen nach der Anzeige

Der springende Punkt ist „allgemein verfügbar”, denn bei Fable 5 handelt es sich um eine inhaltlich eingeschränkte Variante des ebenfalls neuen Mythos 5. Dieses LLM wird, wie von Donald Trump als freiwillige Maßnahme angeordnet, vorerst nur der NSA und, wohl mit Zustimmung des Weißen Hauses, ausgewählte US-Unternehmen im Rahmen des IT-Sicherheitsprojekts Glasswing zur Verfügung gestellt.

Dahinter steckt die im LLM-Marketing bewährte Ansage, dass das neue Ding so enorm mächtig sei, dass eine Freigabe nicht infrage komme. Diesmal betrifft das nicht nur den Bereich IT-Sicherheit, sondern auch Biologie und Chemie sowie Distillation. Gemeint ist nicht die KI-gestützte Produktion geistiger Getränke, sondern das Extrahieren von Fertigkeiten: Andere LLM werden nicht mit Rohdaten, sondern anhand der Ausgaben bestehender LLM trainiert.

Distillation kann legitim sein, etwa um eine kompaktere Variante eines LLM zu erzeugen, oder ein Angriff. Im Februar hat Anthropic die chinesischen Mitbewerber Deepthink, Minimax und Moonshot beschuldigt, Claude durch groß angelegte Distillation attackiert zu haben. Über 24.000 betrügerische Nutzerkonten hätten sie 16 Millionen Distillationsversuche unternommen. Dem will Anthropic Einhalt gebieten.

Unter anderem deswegen überwachen eigene, kleinere LLM („Classifier”) die Nutzereingaben. Das ist nicht grundsätzlich neu, doch reagiert Fable 5 in neuartiger Weise: Hält ein Classifier die Eingaben für verdächtig, verweigert er die Bearbeitung nicht, sondern schaltet auf die ältere Claude-Variante Opus 4.8 um. Das soll dem Nutzer auch angezeigt werden.

Im Netz gibt es bereits Beschwerden über Rückstufungen bei harmlosen Fragen, beispielsweise zur Interpretation eines Blutbildes. Solche false positives geben Anlass zu dem Vorwurf, Anthropic würde das nicht nur als Sicherheitsmaßnahme einsetzen, sondern auch um Serverüberlastung zu kaschieren. Opus 4.8 benötigt weniger Rechenkapazität als Fable 5.

In Zukunft dürfte es mindestens vier parallele Versionen von Claude Mythos geben: Eine vollständige für US-Behörden, eine für ausgewählte IT-Unternehmen mit weniger Einschränkungen für Sicherheitsbelange, eine für ausgewählte Wissenschaftler mit weniger Einschränkungen bei Biologie und Chemie, sowie Fable 5 für die zahlende Allgemeinheit.

Weiterlesen nach der Anzeige

Claude Fable 5 ist grundsätzlich nicht in den Claude-Abonnements enthalten. Nur für 14 Tage dürfen Abonnenten (Pro, Max, Team sowie mit nach Kontoanzahl abgerechneten Enterprise-Verträgen) Fable 5 ausprobieren, verbrauchen dabei aber die doppelte Menge ihres Nutzungsrahmens. Ab 23. Juni soll Fable 5 ausschließlich nach jeweiliger Tokenmenge abgerechnet werden.

Die Tokenpreise (jeweils in US-Dollar) sind dann auch doppelt so hoch wie bei Claude Opus 4.8 und entsprechen damit dessen Fast-Variante: 10 Dollar pro Million Inputtoken, 12,50 Dollar je Million Token Cache Writes (5 Minuten), 20 Dollar je Million Token Cache Writes (1 Stunde), 1 Dollar je Million aus dem Cache gelesener Token, und 50 Dollar je Million Outputtoken.

Anthropic hat Claude Mythos 5 und Fable 5 dreizehn ausgewählten Benchmarks unterzogen. Laut der veröffentlichten Tabelle sticht das neue LLM alles bisher dagewesen bei elf Benchmarks aus. Bei den zwei übrigen liegt es geringfügig hinter der Vorschauvariante Claude Mythos Preview. Deren Classifier waren weniger streng.


Tabelle mit 13 Benchmarks für Mythos/Fable 5, Mythos Preview, Opus 4.8, GPT 5.5 und Gemini 3.1 Pro

Tabelle mit 13 Benchmarks für Mythos/Fable 5, Mythos Preview, Opus 4.8, GPT 5.5 und Gemini 3.1 Pro

Benchmarks laut Anbieter

(Bild: Anthropic)

Besonders stolz ist Anthropic auf die Leistung seines neuen LLMs bei Bilderkennung: „Fable 5 ist der Stand der Technik für Aufgaben, bei denen es auch um Sehen geht. Es kann präzise Zahlen aus detaillierten wissenschaftlichen Schautafeln extrahieren und komplexe bildabhängige Aufgaben ausführen, darunter den Nachbau des Quellcodes einer Web-App aus Screenshots”, heißt es in der Ankündigung. Auch ein Computerspiel habe Fable 5 besser absolviert als frühere Claude-Versionen.

Doch in mindestens einem Bereich hat Opus noch die Nase vorn: Mythos 5 und Fable 5 halluzinieren in manchen Tests mehr. Das und mehr verrät der Beipackzettel („Sytem Card”), der eigentlich ein 319 Seiten dickes Buch ist.


(ds)



Source link

Weiterlesen

Entwicklung & Code

OpenCV 5.0 bringt LLMs in die Computer-Vision-Bibliothek


Mit OpenCV 5.0 ist eine neue Hauptversion der weit verbreiteten Computer-Vision-Bibliothek erschienen. Kern des Releases ist eine komplett neu entwickelte Deep-Learning-Engine (DNN). Sie unterstützt deutlich mehr ONNX-Modelle als bisher, führt moderne Transformer-Architekturen effizienter aus und verarbeitet erstmals auch Sprachmodelle (LLMs) und Vision-Language-Modelle (VLMs) direkt in OpenCV. Außerdem modernisieren die Entwickler den Kern der Bibliothek, bauen die Hardwarebeschleunigung aus und erweitern die 3D-Funktionen.

Weiterlesen nach der Anzeige

OpenCV (Open Source Computer Vision Library) zählt zu den wichtigsten Open-Source-Bibliotheken für die Bildverarbeitung und Computer Vision. Sie kommt unter anderem in der Robotik, der Industrieautomation, der Medizintechnik, in AR/VR-Anwendungen und in Embedded-Systemen zum Einsatz. Die Bibliothek bietet zahlreiche Algorithmen für Bilderkennung, Objekterkennung, Kalibrierung, Tracking und 3D-Rekonstruktion.

Die wichtigste Neuerung ist die überarbeitete DNN-Engine. Nach Angaben des Projekts steigt die Unterstützung für ONNX-Operatoren von rund 22 Prozent in der 4.x-Reihe auf über 80 Prozent. ONNX (Open Neural Network Exchange) hat sich als verbreitetes Austauschformat für KI-Modelle etabliert. Bisher scheiterte der Import moderner Modelle in OpenCV oft an fehlenden Operatoren oder an Einschränkungen bei dynamischen Eingabegrößen.

Die neue Engine setzt auf eine graphbasierte Ausführung: Sie verarbeitet Modelle nicht mehr als einfache Folge von Schichten, sondern analysiert sie als Berechnungsgraph. Das erlaubt Optimierungen wie Shape Inference, Constant Folding und Operator Fusion. Neu sind außerdem die Unterstützung dynamischer Shapes, von Kontrollfluss-Konstrukten wie If– und Loop-Blöcken sowie von Quantisierungsgraphen.

Für aktuelle KI-Modelle besonders relevant ist die Attention Fusion: Die Engine erkennt typische Transformer-Muster und fasst mehrere Operationen zu einer einzigen, optimierten Berechnung zusammen. Das soll moderne Transformer-Modelle beschleunigen und den Speicherbedarf senken. Details zur neuen Engine beschreibt das Projekt im Überblick zu OpenCV 5 auf der Projektseite.

Hinzu kommt die Integration von Sprach- und multimodalen Modellen. Dafür bringt OpenCV 5 einen eigenen Tokenizer und einen KV-Cache für die autoregressive Textgenerierung mit. Unterstützt werden unter anderem die Modellfamilien Qwen 2.5, Gemma 3 und PaliGemma (partiell). So deckt OpenCV nicht mehr nur klassische Bildverarbeitung ab, sondern auch Vision-Language-Szenarien – etwa, wenn ein Modell ein Bild analysiert und anschließend in natürlicher Sprache beschreibt.

Weiterlesen nach der Anzeige

Um die Umstellung bestehender Anwendungen zu erleichtern, bleibt die bisherige DNN-Engine erhalten. OpenCV 5 stellt damit drei Ausführungsvarianten bereit: die neue Engine, die klassische Engine und optional ONNX Runtime. Anwendungen können je nach Bedarf zwischen den Varianten wechseln, ohne ihre DNN-API anzupassen. Welche Engine zum Einsatz kommt, lässt sich beim Laden eines Modells über einen Parameter aus dem Enum cv::dnn::EngineType steuern; standardmäßig wählt ENGINE_AUTO automatisch die passende Variante.

Auch beim Feature-Matching setzt OpenCV stärker auf Deep Learning. Das neue Modul Features löst das bisherige Features2D ab und ergänzt klassische Verfahren wie SIFT oder ORB um neuronale Alternativen, darunter ALIKED, DISK und LightGlueMatcher. Solche Verfahren kommen etwa beim Zusammensetzen von Panoramen, bei Visual SLAM oder bei 3D-Rekonstruktionen zum Einsatz.

LightGlue nutzt Attention-Mechanismen, um Bildmerkmale robuster zuzuordnen als klassische Verfahren. Die klassischen Detektoren bleiben dabei erhalten, sodass sich der neue Deep-Learning-Pfad und die etablierten Methoden je nach Anwendungsfall kombinieren lassen.

Modernisiert haben die Entwickler auch den Kern der Bibliothek. OpenCV unterstützt nun die Datentypen FP16 und BF16, die in aktuellen KI-Beschleunigern weit verbreitet sind, dazu Bool und weitere Integer-Varianten. Die Matrixklasse cv::Mat kann erstmals echte 0D- und 1D-Strukturen abbilden und beherrscht jetzt Broadcasting sowie weitere N-dimensionale Operationen. Das soll viele Umwege und Konvertierungen ersparen.

Bei den Schnittstellen trennt sich das Projekt schrittweise von Altlasten: Die historische C-API gilt nun offiziell als veraltet. Für Python unterstützt OpenCV 5 NumPy 2.x und integriert benannte Parameter stärker, sodass sich Funktionen lesbarer aufrufen lassen – etwa cv.someAlgorithm(threshold=0.5) statt einer rein positionsbasierten Übergabe.

Ein weiteres zentrales Thema ist die Hardwarebeschleunigung. Die Entwickler haben die Hardware Abstraction Layer (HAL) grundlegend überarbeitet, um optimierte Implementierungen verschiedener Hardwarehersteller leichter einzubinden. Das Projekt nennt unter anderem Intel IPP, Arm KleidiCV, Qualcomm FastCV und die Unterstützung der Vektor-Erweiterungen moderner RISC-V-Prozessoren.

Anwendungen sollen so ohne Anpassungen auf unterschiedlichen Prozessorarchitekturen von Beschleunigung profitieren. Möglich macht das unter anderem eine einheitliche Vektor-Codebasis, die verschiedene Befehlssatzerweiterungen wie SSE, AVX, NEON, SVE und RVV über eine gemeinsame Schnittstelle anspricht.

Deutlich ausgebaut wurden die 3D-Funktionen. Das bisherige Modul calib3d teilt sich künftig in die drei Module 3d, calib und stereo auf. Neu hinzu kommen Funktionen für die Kalibrierung mehrerer Kameras, der Import und Export von Punktwolken und Meshes sowie Verfahren zur 3D-Rekonstruktion auf Basis von TSDF-Volumen. Auch moderne Schätzverfahren wie MAGSAC halten Einzug in OpenCV. Diese Erweiterungen richten sich vor allem an Entwickler in der Robotik, von autonomen Systemen und in der industriellen 3D-Vermessung.

Weitere Neuerungen gibt es bei der Bildbearbeitung, die Dokumentation setzt künftig auf eine Kombination aus Sphinx und Doxygen. Den Quellcode stellt das Projekt im GitHub-Repository bereit; die Installation per pip ist ebenfalls vorgesehen.


(fo)



Source link

Weiterlesen

Beliebt