Connect with us

Künstliche Intelligenz

Datenqualität: BSI legt Latte zum Training von KI-Systemen hoch


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Die Qualität von Trainingsdaten ist ein entscheidender Faktor für KI-Projekte. Das gilt aus technischer sowie regulatorischer Sicht. Anforderungen sind mittlerweile nicht mehr nur freiwillig einzuhalten, sondern werden – vor allem für Systeme mit hohem Risiko – durch die KI-Verordnung der EU konkretisiert. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat daher einen Katalog zur Qualitätssicherung von Trainingsdaten in KI-Anwendungen (Quaidal) herausgegeben. Mit dem Leitfaden will die Behörde Ansprüche, die Aspekte wie Relevanz, Fehlerfreiheit und Vollständigkeit abdecken, in konkrete Handlungsbausteine überführen.

Für Entscheider gehe es bei der Qualitätssicherung „um die Verlässlichkeit und Rechtskonformität von KI-Anwendungen“, für Entwickler um die Basis „leistungsfähiger, robuster und nachvollziehbarer Modelle“, erläutert das BSI. Diese hat das Amt – aktuell ganz unten – auf seiner Übersichtsseite zu Künstlicher Intelligenz publiziert. Unzureichende Datenqualität könne „nicht nur zu ineffizienten oder verzerrten Ergebnissen führen“, heißt es dazu. Sie berge auch Risiken für Sicherheit, Fairness und gesellschaftliche Akzeptanz.

Trainings-, Validierungs- und Testdaten für Hochrisiko-Systeme müssten laut dem AI Act „relevant, repräsentativ, fehlerfrei und vollständig sein“, führen die Autoren aus. Insbesondere dürften sie keine Verzerrungen enthalten, „die zu diskriminierenden oder schädlichen Ergebnissen führen könnten“. Damit rücke die Datenqualität ins Zentrum regulatorischer Aufmerksamkeit und werde zur messbaren Voraussetzung für die Zulässigkeit und Marktfähigkeit vieler KI-Systeme.

Qualitätsgesicherte Trainingsdaten seien auch aus technischer Sicht unerlässlich, erläutert das BSI: Sie ermöglichten es, Modelle zu entwickeln, die „effizient lernen, robuste Entscheidungen treffen und sich nachvollziehbar verhalten“. Dazu müsse das Quellmaterial „korrekt, vollständig und frei von systematischen Fehlern sein“. Ebenso wichtig sei Manipulationsresistenz – also die Fähigkeit, Cyberattacken standzuhalten. Schwachstellen in den Daten könnten Angriffsvektoren für Sicherheitslücken sein, die massive Auswirkungen hätten – etwa beim autonomen Fahren, im Finanzwesen oder in der medizinischen Diagnostik.

Es gelte, diese Qualitätsanforderungen „bereits in den frühen Phasen des KI-Lebenszyklus“ zu beherzigen, verweist das Amt auf das Sammeln, Bereinigen und Aufbereiten von Daten. Schon hier entscheide sich, „ob ein System auf einer stabilen, fairen und rechtlich tragfähigen Datenbasis aufbaut“. Nötig seien daher „gezielte Maßnahmen, ein strukturiertes Vorgehen und die enge Zusammenarbeit zwischen Fachbereichen, Datenverantwortlichen und Entwicklungsteams“.

Auf Basis gängiger Normen und Standards definieren die Ersteller des Katalogs zehn zentrale Qualitätskriterien wie Repräsentativität oder Vielfalt. Diese bilden sie in 143 Metriken und Methoden ab, um eine „detaillierte und ganzheitliche Bewertung der Datenqualität“ zu erlauben. Bausteine für eine realitätsgetreue Wiedergabe der Zielpopulation sind demnach etwa das Erfassen möglichst vieler Merkmalsausprägungen, eine gleichmäßige oder bewusste Gewichtung von Subgruppen und der Einbezug einer ausreichenden Datenmenge zur Abdeckung seltener Konstellationen. Um Verzerrungen zu vermeiden, müssten ferner systematische Fehlverteilungen erkannt und reduziert werden.

„Wir müssen sicherstellen, dass Anwendungen mit Künstlicher Intelligenz hohen Qualitätsanforderungen entsprechen“, betonte BSI-Präsidentin Claudia Plattner anlässlich der Publikation des Entwurfs. „Nur so können wir vertrauenswürdige KI herstellen und nutzen.“ Sie lud die Community ein, Kommentare zu machen und Vorschläge einzubringen. Das Amt stellt die erste Version dafür auch in zwei maschinenlesbaren GitHub-Repositories zur Verfügung.


(olb)



Source link

Weiterlesen
Kommentar schreiben

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Künstliche Intelligenz

Schwachstellen: IBM Storage Scale für Attacken anfällig


Angreifer können IBM Storage Scale attackieren und unter anderem Daten manipulieren. In einer aktuellen Version haben die Entwickler drei Sicherheitslücken geschlossen. Bislang sind keine Attacken bekannt.

In einer Warnmeldung sind die Schwachstellen in DOMPurify (CVE-2025-48050 „hoch„) und React Router (CVE-2025-43865 „hoch„, CVE-2025-43864 „hoch„) aufgelistet. Nach erfolgreichen Attacken können Angreifer etwa Daten ändern oder Abstürze über eine DoS-Attacke auslösen.

Die Entwickler geben an, die Sicherheitsprobleme in IBM Storage Scale 5.2.3.0 gelöst zu haben.

Erst kürzlich wurden Softwareschwachstellen in IBM App Connect Enterprise Container und MQ geschlossen.


(des)



Source link

Weiterlesen

Künstliche Intelligenz

Microsoft befreit GitHub-Coding-Assistent für VS Code: Künftig mit MIT-Lizenz


Microsoft legt die Quellen der Copilot-Chat-Erweiterung für Visual Studio Code offen und stellt sie unter MIT-Lizenz. Das ist laut Microsoft ein erster Schritt, um VS Code zu einem offenen KI-Editor auszubauen.

Anwenderinnen und Anwender können nun anhand der Quellen auf GitHub nachvollziehen, wie die Erweiterung Prompts in Chat verarbeitet und welchen Kontext sie dem LLM schickt. Die Quellen zeigen die komplette Implementierung, die Systemprompts und die Telemetriedaten. Der Blogbeitrag mit der Ankündigung empfiehlt: „Warum nicht den Agentenmodus selbst verwenden, um Hilfe beim Erkunden und Verstehen der Codebasis zu bekommen!“

Die Quellen der Original-Extension mit den Funktionen zum Codevervollständigen wird Microsoft nicht veröffentlichen, will die Fähigkeiten aber in den nächsten Monaten in die jetzt offengelegte Erweiterung überführen.

Langfristig soll die komplette Erweiterung integraler Bestandteil von VS Code werden und auch die Quellen der Erweiterung ziehen dann in das Haupt-Repository von VS Code um. Mit der Open-Source-Strategie verfolgt Microsoft das Ziel, einerseits die eigenen KI-Funktionen mit der Community zu verbessern und es andererseits dem Ökosystem zu vereinfachen, Erweiterungen mit KI-Fähigkeiten zu bauen. Außerdem machen die Quellen transparent, welche Daten Microsoft versendet.

Eine zuvor offensichtlich als notwendig erachtete Geheimhaltung sieht der Hersteller inzwischen als überflüssig an: „Die Large Language Models haben sich signifikant verbessert, was den Bedarf an Prompt-Strategien mit ‚Geheimsauce‘ abschwächt“.

Lesen Sie auch


(who)



Source link

Weiterlesen

Künstliche Intelligenz

BibBot: Browser-Add-on zum Lesen hinter vielen Paywalls


Noch bis vor wenigen Jahren stellten viele Verlage die meisten ihrer Artikel im Internet kostenlos zur Verfügung. Mittlerweile steht ein Großteil der Texte hinter Bezahlschranken, neudeutsch Paywalls. Möchte man einen Blick hinter die Schranke werfen, muss man ein Abo abschließen. So ist es auch bei c’t.

Allerdings kann man viele kostenpflichtige Artikel aus Zeitungen und Zeitschriften auch ohne solche Abos lesen, und zwar mit einem Ausweis der lokalen Stadtbibliothek. Diesen bekommt man beispielsweise in Hannover für 2 Euro pro Monat beziehungsweise für 24 Euro pro Jahr. Die Preise anderer Stadtbibliotheken liegen auf ähnlichem Niveau. In München und in Frankfurt am Main zum Beispiel sind es 20 Euro im Jahr, in Hamburg 45 Euro. Über die Dienste der Büchereien wie Pressreader, Genios und Onleihe liest man die Inhalte digital am PC, Tablet oder E-Book-Reader.

Doch zugegeben: Es ist nicht besonders komfortabel, wenn man beim Surfen auf einen spannenden Artikel trifft und statt ihn einfach anklicken zu können, zunächst im Bibliotheks-Portal suchen muss, um ihn dann dort zu lesen. Genau dieses Problem löst die kostenlose Browser-Erweiterung BibBot des Entwicklers und Journalisten Stefan Wehrmeyer, der auch die Informationsfreiheitsplattform FragDenStaat gegründet hat.


Das war die Leseprobe unseres heise-Plus-Artikels „BibBot: Browser-Add-on zum Lesen hinter vielen Paywalls“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Beliebt