Künstliche Intelligenz
Xbench: Chinesischer KI-Benchmark prüft Modelle auf Alltagstauglichkeit
Beim Testen eines KI-Modells ist es schwer zu sagen, ob es tatsächlich selbstständig Schlussfolgerungen ziehen kann oder nur Antworten aus seinen Trainingsdaten wiedergibt. Xbench, ein neues Benchmarksystem, das von der chinesischen Risikokapitalfirma HSG (steht für HongShan Capital Group) entwickelt wurde, könnte dabei helfen, dieses Problem zu lösen. Das liegt daran, dass die Modelle von der Software nicht nur anhand ihrer Fähigkeit bewertet werden, willkürliche Tests zu bestehen, wie dies bei den meisten anderen Benchmarks der Fall ist. Stattdessen werden auch ihre Fähigkeiten, reale Aufgaben auszuführen, überprüft – was bis dato eher ungewöhnlich ist. Xbench wird zudem regelmäßig aktualisiert, um ihn auf dem neuesten Stand zu halten, was dabei hilft, zu vermeiden, dass KI-Firmen sich einfach an ihn anpassen und somit schummeln.
Ein Teil des in dem neuen Benchmark enthaltenen Fragenkatalogs wurde jetzt quelloffen zur Verfügung gestellt, sodass jeder das vorhandene System kostenlos nutzen kann. Das Team hat außerdem eine Rangliste veröffentlicht, in der die gängigen KI-Modelle im Vergleich zueinander bewertet werden, wenn sie mit Xbench überprüft werden. ChatGPT o3 belegte in allen Kategorien den ersten Platz, aber auch Doubao von ByteDance, Gemini 2.5 Pro und Grok von X.ai schnitten recht gut ab – ebenso wie Claude Sonnet von Anthropic.
Lohnt sich die Investition? KI-Benchmark soll es klären
Die Entwicklung des Benchmarks von HSG begann bereits 2022 nach dem Durchbruch von ChatGPT. Damals war es noch als internes Werkzeug zur Bewertung neuer Modelle gedacht, um herauszufinden, ob sich Investitionen lohnen. Seitdem hat das Team unter der Leitung von Gong Yuan das System stetig erweitert und externe Forschende und Fachleute hinzugezogen, um es zu verfeinern. Als das Projekt immer komplexer wurde, beschlossen sie, es der Öffentlichkeit zugänglich zu machen.
Xbench geht das Problem, die Leistungsfähigkeit neuer Modelle zu ermitteln, mit zwei verschiedenen Ansätzen an. Der erste ähnelt dem traditionellen Benchmarking: ein akademischer Test, der die Eignung eines Modells für verschiedene Themen misst. Der zweite ähnelt eher einem Vorstellungsgespräch für eine technische Stellung. Dabei wird bewertet, welchen wirtschaftlichen Nutzen ein Modell in der Praxis liefern könnte.
Wie schlagen sich KI-Modelle in Wissenschaft und Recherche?
Die Methoden von Xbench zur Bewertung der rohen Intelligenz umfassen derzeit zwei Komponenten: Xbench-ScienceQA und Xbench-DeepResearch. ScienceQA unterscheidet sich nicht grundlegend von bestehenden Prüfungen für Postgraduierte im MINT-Bereich wie GPQA und SuperGPQA. Es umfasst Fragen aus verschiedenen wissenschaftlichen Bereichen – von Biochemie bis Orbitalmechanik –, die von Doktoranden verfasst und von Professoren doppelt überprüft wurden. Bewertet werden nicht nur die richtigen Antworten, sondern auch die Lösungswege, die zu ihnen führen.
Xbench DeepResearch hingegen konzentriert sich auf die Fähigkeit eines Modells, sich im chinesischsprachigen Internet zurechtzufinden. Zehn Fachexperten haben 100 Fragen zu den Themen Musik, Geschichte, Finanzen und Literatur erstellt – Fragen, die nicht einfach ergoogelt werden können, sondern umfangreiche Recherchen erfordern.
Bei der Bewertung werden die Breite der verwendeten Quellen, die faktische Konsistenz der Antworten und die Bereitschaft eines Modells, zuzugeben, wenn nicht genügend Daten vorhanden sind, positiv bewertet. Eine Frage aus der von HSG veröffentlichten Sammlung lautet etwa: „Wie viele chinesische Städte in den drei nordwestlichen Provinzen grenzen an ein anderes Land?“ (Die Antwort lautet 12, und nur 33 Prozent der getesteten Modelle antworteten richtig.)
Auf der Website von HSG gaben die Forschenden an, dass sie ihren Benchmark um weitere Dimensionen erweitern möchten, beispielsweise um Aspekte wie die Kreativität eines Modells bei der Problemlösung, seine Kooperationsfähigkeit bei der Zusammenarbeit mit anderen Modellen (falls das technisch inkludiert ist) und seine Zuverlässigkeit. Das Team hat sich dabei verpflichtet, die Testfragen einmal pro Quartal zu aktualisieren und einen halb öffentlichen, halb privaten Datensatz zu pflegen. Damit sollte es Modellanbietern nicht möglich sein, ihr System auf Xbench zu trainieren.
Test für Praxisabläufe: etwa Recruiting und Marketing
Um die Praxistauglichkeit und den wirtschaftlichen Wert eines Modells zu bewerten, hat das Team in Zusammenarbeit mit externen Experten weiterhin Aufgaben entwickelt, die auf tatsächlichen Arbeitsabläufen basieren. Zunächst betrifft dies die Bereiche Personalbeschaffung und Marketing, später sollen weitere hinzukommen.
Bei einer der Aufgaben soll ein Modell beispielsweise fünf qualifizierte Kandidaten für eine Stelle als Ingenieur in einem Batteriewerk finden und die Auswahl ausführlich begründen. In einer anderen Aufgabe soll es wiederum Werbekunden mit geeigneten Kurzvideo-Erstellern aus einem Pool von über 800 Influencern zusammenbringen.
HSG kündigt für Xbench auch weitere Kategorien an, darunter Finanzen, Recht, Buchhaltung und Design. Die Fragenkataloge für diese Kategorien sind noch nicht öffentlich zugänglich. Bei den bereits bekannten belegte ChatGPT o3 erneut den ersten Platz in beiden Berufskategorien. Bei der Personalbeschaffung im Bereich Batterietechnik belegen Perplexity Search und Claude 3.5 Sonnet den zweiten und dritten Platz.
Im Bereich Marketing schneiden Claude, Grok und Gemini alle gut ab. „Es ist wirklich schwierig, Dinge, die so schwer zu quantifizieren sind, in Benchmarks einzubeziehen“, kommentiert Zihan Zheng vom konkurrierenden Benchmarkprojekt LiveCodeBench Pro mit Forschungserfahrung an der New York University. „Aber Xbench ist ein vielversprechender Anfang.“
Dieser Beitrag ist zuerst bei t3n.de erschienen.
(jle)
Künstliche Intelligenz
Aus Softwarefehlern lernen – Teil 1: Einheiten. Wenn Zahlen irreführend werden
Wenn Softwarefehler auftreten, passiert das meistens unbemerkt und unauffällig, gelegentlich aber auch höchst spektakulär und kostspielig. Von fehlgeschlagenen Raumfahrtmissionen über Börsencrashs bis hin zu fehlerhaften medizinischen Geräten gibt es eine lange Liste berühmter Softwarepannen. Wer sie studiert, stellt schnell fest: Die meisten dieser Fehler wirken auf den ersten Blick wie einmalige Katastrophen, sind in Wahrheit aber Wiederholungen bekannter Muster.
Golo Roden ist Gründer und CTO von the native web GmbH. Er beschäftigt sich mit der Konzeption und Entwicklung von Web- und Cloud-Anwendungen sowie -APIs, mit einem Schwerpunkt auf Event-getriebenen und Service-basierten verteilten Architekturen. Sein Leitsatz lautet, dass Softwareentwicklung kein Selbstzweck ist, sondern immer einer zugrundeliegenden Fachlichkeit folgen muss.
Die Teile der Serie „Aus Softwarefehlern lernen“:
Diese Artikelserie stellt neun dieser typischen Fehlerklassen vor, die in der Praxis immer wieder auftauchen – unabhängig von Branche oder Technologie. In jeder Kategorie wird die Serie ein konkretes Beispiel vorstellen, dessen Ursachen analysieren und daraus ableiten, was Softwareentwicklerinnen und Softwareentwickler langfristig lernen können.
Der Bug in der Rechenanlage
Eine der beliebtesten Anekdoten der Softwaregeschichte ist die von Grace Hopper und der berühmten Motte. 1947 arbeitete Grace Hopper an der Harvard-Mark-II-Rechenanlage, in der sich eine echte Motte in einem Relais verfangen hatte. Nachdem ein Teammitglied sie gefunden und entfernt hatte, klebte dieser sie mit dem Kommentar „first actual case of bug being found“ ins Protokollbuch. Dieses Protokollbuch wird heute in einem Smithsonian Museum in Washington ausgestellt.
Diese Episode ist zu einer Legende der IT-Kultur geworden – das Wort „Bug“ wurde damals aber nicht erfunden. Schon Thomas Edison sprach 1878 in Briefen über „Bugs“ in Maschinen, also kleine, schwer zu findende Fehler. Trotzdem prägte Grace Hopper die Vorstellung, dass Softwarefehler etwas sind, das man wie ein Insekt finden und entfernen kann.
Doch die Realität ist oft subtiler: Bugs sind meist Symptome systematischer Schwächen. Hinter fast jeder spektakulären Panne steckt ein Muster, das sich in abgewandelter Form immer und immer wieder findet. Deshalb lohnt sich ein Blick nicht nur auf die einzelnen Vorfälle, sondern vor allem auf die Fehlerkategorien, die sie repräsentieren.
Teil 1: Einheiten und Maße: Wenn Zahlen irreführend werden
Am Beginn dieser Serie steht ein Thema, mit dem Entwicklerinnen und Entwickler jeden Tag wie selbstverständlich hantieren – und das vielleicht gerade deshalb so gefährlich ist. Es wird allzu leicht unterschätzt: Die Rede ist vom Umgang mit Zahlen.
Kaum ein Beispiel für Softwarefehler wird so häufig genannt wie der Verlust der NASA-Sonde Mars Climate Orbiter im Jahr 1999. Ziel der Mission war es, die Marsatmosphäre zu untersuchen. Nach einer monatelangen Reise näherte sich die Sonde dem Planeten – und verglühte. Die Ursache war fast grotesk simpel: Die Entwickler hatten in der Software metrische und imperiale Maßeinheiten verwechselt. Das Ergebnis war ein systematischer Navigationsfehler, der die Sonde auf eine zu niedrige Umlaufbahn führte.
Dieser Vorfall zeigt, dass Zahlen ohne Kontext gefährlich sind. Eine Zahl wie 350 kann das Maß einer Geschwindigkeit, einer Kraft oder einer Energie bedeuten – oder eben etwas ganz anderes. Solange eine Software Daten als rohe Zahlen behandelt, besteht die Gefahr, dass jemand sie falsch missinterpretiert. In großen Projekten mit mehreren Teams potenziert sich dieses Risiko, wenn jede Seite implizite Annahmen trifft, die niemand irgendwo explizit dokumentiert oder technisch abgesichert hat.
Aus Sicht der Qualitätssicherung sind solche Fehler besonders tückisch, denn Unit Tests können ebenso wie Integrationstests durchaus korrekt durchlaufen – solange die falschen Einheiten konsistent falsch sind. Das Problem zeigt sich oft erst in der Realität, wenn Sensoren, Aktoren oder externe Systeme ins Spiel kommen, deren Daten den zuvor getroffenen Annahmen nicht entsprechen. Die Lehre aus diesem Vorfall ist klar: Zahlen brauchen Bedeutung. Moderne Programmiersprachen und Frameworks bieten verschiedene Möglichkeiten, diese Bedeutung explizit zu machen:
- Value Objects oder Wrapper-Typen: Statt
double
oderfloat
kommt ein eigener Typ wieForceInNewton
oderVelocityInMetersPerSecond
zum Einsatz. Damit wird die Einheit Teil der Typinformation. Manche Programmiersprachen, beispielsweise F#, bieten Unterstützung für Einheiten sogar bereits als Teil der Sprache an. - Bibliotheken für physikalische Einheiten: Sie ermöglichen automatische Umrechnungen und erzwingen korrekte Kombinationen.
- Schnittstellenverträge und End-to-End-Tests: API-Definitionen sollten Einheiten benennen. Tests mit echten Daten decken Diskrepanzen auf, bevor sie zu Katastrophen führen.
Neben diesen technischen Maßnahmen spielt außerdem auch die Teamkultur eine große Rolle. Projekte, die früh auf eine gemeinsame Sprache für ihre Daten achten – sei es durch Domain-Driven Design (DDD) oder einfach durch konsequente Dokumentation –, vermeiden solche Fehler deutlich häufiger.
Der Verlust des Mars Climate Orbiter hat die NASA hart getroffen. Doch er hat auch dazu geführt, dass Entwicklerinnen und Entwickler zumindest in manchen Projekten stärker auf Einheitenfehler achten und diese Fehlerklasse seither (hoffentlich) ernster nehmen. Für Softwareteams im Alltag gilt dasselbe: Wer Zahlen ohne Kontext weitergibt, lädt zum nächsten Bug geradezu ein.
Im nächsten Teil lesen Sie: Überlauf, Arithmetik und Präzision: Wenn Zahlen kippen
(who)
Künstliche Intelligenz
heise online Logo
Mit dem rasanten Wachstum von APIs steigt auch die Notwendigkeit für deren qualitativ hochwertige Entwicklung. Doch viele APIs sind schlecht programmiert, was zu einer ineffizienten Nutzung und schlechter Developer Experience führt. In unserem Workshop API-Design und -Entwicklung mit HTTP, REST und OpenAPI zeigen wir Ihnen, wie Sie effiziente und benutzerfreundliche APIs entwickeln und geben Ihnen Best Practices für das Design von HTTP-basierten REST-Schnittstellen.
Der Workshop umfasst eine Einführung in HTTP und REST sowie das Design von RESTful APIs. Sie lernen, wie Sie HTTP- und REST-Standards korrekt anwenden, standardisierte Referenzdokumentationen erstellen und für API-Konsistenz sorgen. Sie machen sich mit der OpenAPI-Spezifikation vertraut und lernen, wie Sie OpenAPI-Beschreibungen für REST APIs erstellen und die Qualität dieser Beschreibungen überprüfen können.
Interaktives Lernen und Üben
Der Workshop ist interaktiv gestaltet und besteht aus Theorie- und Praxisblöcken. Während der Übungen arbeiten Sie in Kleingruppen und wenden die Standards und Werkzeuge praktisch an. Anhand von Beispielen aus der langjährigen Praxiserfahrung der Trainer können Sie das Gelernte direkt anwenden und vertiefen.
Diese Schulung richtet sich an Entwickler und Entwicklerinnen, die HTTP, REST und OpenAPI noch nicht angewendet haben oder ihr Wissen bezüglich dieser Standards auffrischen möchten. Besonders wichtig sind diese Standards für Entwicklungsteams, deren APIs von anderen Teams oder sogar Externen verwendet werden.
Ihre Trainer Daniel Kocot und Miriam Greis arbeiten gemeinsam in einem Team der codecentric AG und betreuen dort Kunden im Bereich API-Entwicklung mit dem Schwerpunkt API Experience & Operations. Ein besonderes Augenmerk liegt dabei auf der kontinuierlichen Verbesserung und Automatisierung von Prozessen.
(ilk)
Künstliche Intelligenz
Künstliche Intelligenz: Agentic AI aus Securitysicht – Angriffe und Verteidigung
Beim Thema Agentic AI und Sicherheit denken viele zuerst und oft sogar ausschließlich an Prompt Injections. Die sind aber nur eine von vielen Sicherheitsherausforderungen bei Agentic AI – und oft nicht einmal die dringendste. Agentic-AI-Systeme sind komplex und bestehen aus vielen einzelnen Bestandteilen. Aus Securitysicht erben diese Systeme damit die Sicherheitsanforderungen aller beteiligten Komponenten. Die folgende Abbildung zeigt die Schichten, die dieser Artikel näher betrachtet.
Die Systemschicht umfasst alle allgemeinen Supportkomponenten wie Bibliotheken, Compute- und Netzwerkressourcen. Die Datenschicht beinhaltet den Lang- und Kurzzeitspeicher, sowohl für die Nutzung durch Agenten als auch für die Protokollierung. Die Modelle selbst und ihre Trainingsdaten sind ebenfalls in dieser Schicht beheimatet. In der Agentenschicht interagieren die KI-Agenten untereinander und mit den verfügbaren Werkzeugen.
- Agentic-AI-Systeme bestehen aus komplexen Schichten, die jeweils eigene, teils bekannte und teils neue Sicherheitsrisiken mit sich bringen, darunter Infrastruktur-, Datenbank- und DevOps-Schwachstellen.
- Angriffe wie Data Poisoning, Prompt Injection, Tool Subversion und Infrastrukturlecks betreffen sowohl die Modelle selbst als auch deren Betriebsumgebung – oft auch über öffentliche Repositorys und APIs.
- Effektiver Schutz erfordert die Härtung und Isolierung aller Komponenten, sichere Schnittstellen, strenge Sitzungsverwaltung sowie präventive Design-Patterns gegen Prompt Injection und andere Agentic-spezifische Angriffe.
- Neben technischen Maßnahmen sind Governance, Verantwortlichkeiten und ein umfassendes Verständnis der Systeme im Einsatzkontext essenziell, um Risiken bei autonomen Agentensystemen effektiv zu steuern.
Die Orchestrationsschicht verwaltet Aktionen im Zusammenhang mit der Verarbeitung, wie die Aktivierung ausgewählter Agenten zur Erarbeitung von (Teil-)Ergebnissen. Alle für Benutzer, Administratoren und APIs von außen sichtbaren Schnittstellen ins Agentic-AI-System befinden sich auf der Interaktionsschicht. Zu den externen Einheiten gehören Bibliotheken von Drittanbietern, öffentliche Trainingsdatensätze, externe Tools und vieles mehr. Aus Sicht der Lieferkettensicherheit sind dies die ersten externen Einstiegspunkte.
Das war die Leseprobe unseres heise-Plus-Artikels „Künstliche Intelligenz: Agentic AI aus Securitysicht – Angriffe und Verteidigung“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
-
UX/UI & Webdesignvor 1 Monat
Der ultimative Guide für eine unvergessliche Customer Experience
-
UX/UI & Webdesignvor 4 Wochen
Adobe Firefly Boards › PAGE online
-
Social Mediavor 1 Monat
Relatable, relevant, viral? Wer heute auf Social Media zum Vorbild wird – und warum das für Marken (k)eine gute Nachricht ist
-
Entwicklung & Codevor 1 Monat
Posit stellt Positron vor: Neue IDE für Data Science mit Python und R
-
Entwicklung & Codevor 3 Wochen
EventSourcingDB 1.1 bietet flexiblere Konsistenzsteuerung und signierte Events
-
UX/UI & Webdesignvor 1 Woche
Fake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online
-
Digital Business & Startupsvor 3 Monaten
10.000 Euro Tickets? Kann man machen – aber nur mit diesem Trick
-
Digital Business & Startupsvor 3 Monaten
80 % günstiger dank KI – Startup vereinfacht Klinikstudien: Pitchdeck hier