Künstliche Intelligenz

Datenqualität: BSI legt Latte zum Training von KI-Systemen hoch


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Die Qualität von Trainingsdaten ist ein entscheidender Faktor für KI-Projekte. Das gilt aus technischer sowie regulatorischer Sicht. Anforderungen sind mittlerweile nicht mehr nur freiwillig einzuhalten, sondern werden – vor allem für Systeme mit hohem Risiko – durch die KI-Verordnung der EU konkretisiert. Das Bundesamt für Sicherheit in der Informationstechnik (BSI) hat daher einen Katalog zur Qualitätssicherung von Trainingsdaten in KI-Anwendungen (Quaidal) herausgegeben. Mit dem Leitfaden will die Behörde Ansprüche, die Aspekte wie Relevanz, Fehlerfreiheit und Vollständigkeit abdecken, in konkrete Handlungsbausteine überführen.

Für Entscheider gehe es bei der Qualitätssicherung „um die Verlässlichkeit und Rechtskonformität von KI-Anwendungen“, für Entwickler um die Basis „leistungsfähiger, robuster und nachvollziehbarer Modelle“, erläutert das BSI. Diese hat das Amt – aktuell ganz unten – auf seiner Übersichtsseite zu Künstlicher Intelligenz publiziert. Unzureichende Datenqualität könne „nicht nur zu ineffizienten oder verzerrten Ergebnissen führen“, heißt es dazu. Sie berge auch Risiken für Sicherheit, Fairness und gesellschaftliche Akzeptanz.

Trainings-, Validierungs- und Testdaten für Hochrisiko-Systeme müssten laut dem AI Act „relevant, repräsentativ, fehlerfrei und vollständig sein“, führen die Autoren aus. Insbesondere dürften sie keine Verzerrungen enthalten, „die zu diskriminierenden oder schädlichen Ergebnissen führen könnten“. Damit rücke die Datenqualität ins Zentrum regulatorischer Aufmerksamkeit und werde zur messbaren Voraussetzung für die Zulässigkeit und Marktfähigkeit vieler KI-Systeme.

Qualitätsgesicherte Trainingsdaten seien auch aus technischer Sicht unerlässlich, erläutert das BSI: Sie ermöglichten es, Modelle zu entwickeln, die „effizient lernen, robuste Entscheidungen treffen und sich nachvollziehbar verhalten“. Dazu müsse das Quellmaterial „korrekt, vollständig und frei von systematischen Fehlern sein“. Ebenso wichtig sei Manipulationsresistenz – also die Fähigkeit, Cyberattacken standzuhalten. Schwachstellen in den Daten könnten Angriffsvektoren für Sicherheitslücken sein, die massive Auswirkungen hätten – etwa beim autonomen Fahren, im Finanzwesen oder in der medizinischen Diagnostik.

Es gelte, diese Qualitätsanforderungen „bereits in den frühen Phasen des KI-Lebenszyklus“ zu beherzigen, verweist das Amt auf das Sammeln, Bereinigen und Aufbereiten von Daten. Schon hier entscheide sich, „ob ein System auf einer stabilen, fairen und rechtlich tragfähigen Datenbasis aufbaut“. Nötig seien daher „gezielte Maßnahmen, ein strukturiertes Vorgehen und die enge Zusammenarbeit zwischen Fachbereichen, Datenverantwortlichen und Entwicklungsteams“.

Auf Basis gängiger Normen und Standards definieren die Ersteller des Katalogs zehn zentrale Qualitätskriterien wie Repräsentativität oder Vielfalt. Diese bilden sie in 143 Metriken und Methoden ab, um eine „detaillierte und ganzheitliche Bewertung der Datenqualität“ zu erlauben. Bausteine für eine realitätsgetreue Wiedergabe der Zielpopulation sind demnach etwa das Erfassen möglichst vieler Merkmalsausprägungen, eine gleichmäßige oder bewusste Gewichtung von Subgruppen und der Einbezug einer ausreichenden Datenmenge zur Abdeckung seltener Konstellationen. Um Verzerrungen zu vermeiden, müssten ferner systematische Fehlverteilungen erkannt und reduziert werden.

„Wir müssen sicherstellen, dass Anwendungen mit Künstlicher Intelligenz hohen Qualitätsanforderungen entsprechen“, betonte BSI-Präsidentin Claudia Plattner anlässlich der Publikation des Entwurfs. „Nur so können wir vertrauenswürdige KI herstellen und nutzen.“ Sie lud die Community ein, Kommentare zu machen und Vorschläge einzubringen. Das Amt stellt die erste Version dafür auch in zwei maschinenlesbaren GitHub-Repositories zur Verfügung.


(olb)



Source link

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Beliebt

Die mobile Version verlassen