Künstliche Intelligenz
Xbench: Chinesischer KI-Benchmark prüft Modelle auf Alltagstauglichkeit
Beim Testen eines KI-Modells ist es schwer zu sagen, ob es tatsächlich selbstständig Schlussfolgerungen ziehen kann oder nur Antworten aus seinen Trainingsdaten wiedergibt. Xbench, ein neues Benchmarksystem, das von der chinesischen Risikokapitalfirma HSG (steht für HongShan Capital Group) entwickelt wurde, könnte dabei helfen, dieses Problem zu lösen. Das liegt daran, dass die Modelle von der Software nicht nur anhand ihrer Fähigkeit bewertet werden, willkürliche Tests zu bestehen, wie dies bei den meisten anderen Benchmarks der Fall ist. Stattdessen werden auch ihre Fähigkeiten, reale Aufgaben auszuführen, überprüft – was bis dato eher ungewöhnlich ist. Xbench wird zudem regelmäßig aktualisiert, um ihn auf dem neuesten Stand zu halten, was dabei hilft, zu vermeiden, dass KI-Firmen sich einfach an ihn anpassen und somit schummeln.
Ein Teil des in dem neuen Benchmark enthaltenen Fragenkatalogs wurde jetzt quelloffen zur Verfügung gestellt, sodass jeder das vorhandene System kostenlos nutzen kann. Das Team hat außerdem eine Rangliste veröffentlicht, in der die gängigen KI-Modelle im Vergleich zueinander bewertet werden, wenn sie mit Xbench überprüft werden. ChatGPT o3 belegte in allen Kategorien den ersten Platz, aber auch Doubao von ByteDance, Gemini 2.5 Pro und Grok von X.ai schnitten recht gut ab – ebenso wie Claude Sonnet von Anthropic.
Lohnt sich die Investition? KI-Benchmark soll es klären
Die Entwicklung des Benchmarks von HSG begann bereits 2022 nach dem Durchbruch von ChatGPT. Damals war es noch als internes Werkzeug zur Bewertung neuer Modelle gedacht, um herauszufinden, ob sich Investitionen lohnen. Seitdem hat das Team unter der Leitung von Gong Yuan das System stetig erweitert und externe Forschende und Fachleute hinzugezogen, um es zu verfeinern. Als das Projekt immer komplexer wurde, beschlossen sie, es der Öffentlichkeit zugänglich zu machen.
Xbench geht das Problem, die Leistungsfähigkeit neuer Modelle zu ermitteln, mit zwei verschiedenen Ansätzen an. Der erste ähnelt dem traditionellen Benchmarking: ein akademischer Test, der die Eignung eines Modells für verschiedene Themen misst. Der zweite ähnelt eher einem Vorstellungsgespräch für eine technische Stellung. Dabei wird bewertet, welchen wirtschaftlichen Nutzen ein Modell in der Praxis liefern könnte.
Wie schlagen sich KI-Modelle in Wissenschaft und Recherche?
Die Methoden von Xbench zur Bewertung der rohen Intelligenz umfassen derzeit zwei Komponenten: Xbench-ScienceQA und Xbench-DeepResearch. ScienceQA unterscheidet sich nicht grundlegend von bestehenden Prüfungen für Postgraduierte im MINT-Bereich wie GPQA und SuperGPQA. Es umfasst Fragen aus verschiedenen wissenschaftlichen Bereichen – von Biochemie bis Orbitalmechanik –, die von Doktoranden verfasst und von Professoren doppelt überprüft wurden. Bewertet werden nicht nur die richtigen Antworten, sondern auch die Lösungswege, die zu ihnen führen.
Xbench DeepResearch hingegen konzentriert sich auf die Fähigkeit eines Modells, sich im chinesischsprachigen Internet zurechtzufinden. Zehn Fachexperten haben 100 Fragen zu den Themen Musik, Geschichte, Finanzen und Literatur erstellt – Fragen, die nicht einfach ergoogelt werden können, sondern umfangreiche Recherchen erfordern.
Bei der Bewertung werden die Breite der verwendeten Quellen, die faktische Konsistenz der Antworten und die Bereitschaft eines Modells, zuzugeben, wenn nicht genügend Daten vorhanden sind, positiv bewertet. Eine Frage aus der von HSG veröffentlichten Sammlung lautet etwa: „Wie viele chinesische Städte in den drei nordwestlichen Provinzen grenzen an ein anderes Land?“ (Die Antwort lautet 12, und nur 33 Prozent der getesteten Modelle antworteten richtig.)
Auf der Website von HSG gaben die Forschenden an, dass sie ihren Benchmark um weitere Dimensionen erweitern möchten, beispielsweise um Aspekte wie die Kreativität eines Modells bei der Problemlösung, seine Kooperationsfähigkeit bei der Zusammenarbeit mit anderen Modellen (falls das technisch inkludiert ist) und seine Zuverlässigkeit. Das Team hat sich dabei verpflichtet, die Testfragen einmal pro Quartal zu aktualisieren und einen halb öffentlichen, halb privaten Datensatz zu pflegen. Damit sollte es Modellanbietern nicht möglich sein, ihr System auf Xbench zu trainieren.
Test für Praxisabläufe: etwa Recruiting und Marketing
Um die Praxistauglichkeit und den wirtschaftlichen Wert eines Modells zu bewerten, hat das Team in Zusammenarbeit mit externen Experten weiterhin Aufgaben entwickelt, die auf tatsächlichen Arbeitsabläufen basieren. Zunächst betrifft dies die Bereiche Personalbeschaffung und Marketing, später sollen weitere hinzukommen.
Bei einer der Aufgaben soll ein Modell beispielsweise fünf qualifizierte Kandidaten für eine Stelle als Ingenieur in einem Batteriewerk finden und die Auswahl ausführlich begründen. In einer anderen Aufgabe soll es wiederum Werbekunden mit geeigneten Kurzvideo-Erstellern aus einem Pool von über 800 Influencern zusammenbringen.
HSG kündigt für Xbench auch weitere Kategorien an, darunter Finanzen, Recht, Buchhaltung und Design. Die Fragenkataloge für diese Kategorien sind noch nicht öffentlich zugänglich. Bei den bereits bekannten belegte ChatGPT o3 erneut den ersten Platz in beiden Berufskategorien. Bei der Personalbeschaffung im Bereich Batterietechnik belegen Perplexity Search und Claude 3.5 Sonnet den zweiten und dritten Platz.
Im Bereich Marketing schneiden Claude, Grok und Gemini alle gut ab. „Es ist wirklich schwierig, Dinge, die so schwer zu quantifizieren sind, in Benchmarks einzubeziehen“, kommentiert Zihan Zheng vom konkurrierenden Benchmarkprojekt LiveCodeBench Pro mit Forschungserfahrung an der New York University. „Aber Xbench ist ein vielversprechender Anfang.“
Dieser Beitrag ist zuerst bei t3n.de erschienen.
(jle)
Künstliche Intelligenz
VeloFlow: Berlin testet Fahrrad-Ampel mit Erreichbarkeitsprognose
Dieses System soll Frust an Ampeln bei Radfahrern in Berlin sowie potenzielle Rotlichtverstöße reduzieren: Die Senatsverkehrsverwaltung der Hauptstadt hat angekündigt, eine VeloFlow getaufte Lösung an zunächst 23 Signallichtanlagen von September an testen zu wollen. Es handelt sich um digitale Anzeigen etwa unter Parkverbotsschildern, die Radfahrer rund 200 Meter vor einer Kreuzung darüber informieren, ob sie die nächste Ampel bei einer Geschwindigkeit von etwa 20 Kilometer in der Stunde bei Grün oder Rot erreichen werden.
LED-Displays an Straßenschildern
Die Funktionsweise von VeloFlow ist laut dem Senat relativ einfach: Ein Fahrrad-Symbol auf dem Display signalisiert, ob die Ampelphase bei gleichbleibendem Tempo Grün oder Rot sein wird. Befindet sich das stilisierte Rad im grünen Bereich, können vorbeikommende Radler davon ausgehen, dass sie die Ampel bei freier Fahrt passieren können. Zeigt das Symbol den roten Bereich, deutet dies auf eine bevorstehende Rotphase hin. Das soll es Velofahrern ermöglichen, ihr Tempo vorausschauend anzupassen – entweder durch eine leichte Beschleunigung oder durch langsames Ausrollen. Abruptes Bremsen oder ein Passieren der Ampel bei Rot soll so leichter vermeidbar werden.
VeloFlow basiert den offiziellen Angaben zufolge auf dem Assistenzsystem Green Light Optimal Speed Advisory (Glosa). Dieses benötigt in Echtzeit Informationen über die Ampelphasen. Sogenannte Roadside Units (RSUs) direkt an den Lichtsignalanlagen erfassen dafür die aktuellen einschlägigen Daten und erstellen Prognosen für die nächsten Schaltvorgänge. Diese Informationen können über verschiedene Wege drahtlos etwa an Displays, Fahrzeuge oder Endgeräte der Nutzer gesendet werden. In Berlin soll auf dieser Basis der Glosa-Verzögerungsassistent zum Einsatz kommen. Ähnliche Anzeigen tun bereits in Münster ihre Dienste.
„Grüne Welle“-Assistent prinzipiell auch machbar
Möglich wäre mithilfe der Technik auch die Implementierung eines „Grüne Welle“-Assistenten, wie er etwa in Marburg für App-Nutzer schon seit Jahren verfügbar ist. Davon ist in der Hauptstadt aber aktuell keine Rede. Der Senat bezeichnet die RSUs aber als „strategisch wichtige Schnittstellen“ für die künftige digitale Verkehrsinfrastruktur. Sie könnten mit intelligenten Fahrzeugen kommunizieren, um Ampelphasen, Verkehrsbedingungen und Gefahren zu übermitteln. Das bilde den Grundstein für kooperative und autonom fahrende Systeme. Verkehrsfluss, Sicherheit und Effizienz würden weiter optimiert.
In der Invalidenstraße in Mitte werden dem Plan nach zehn VeloFlow-Anzeigen installiert, im Bereich Stargarder Straße, Schönhauser und Prenzlauer Allee neun. Je zwei sind in der Handjery- und Prinzregentenstraße sowie der Langenscheidt- und Kreuzbergstraße vorgesehen. Ein Display schlage mit knapp 3000 Euro zu Buche, erklärte die Verkehrsverwaltung dem rbb. Dazu kämen Kosten für die Stromversorgung, die Digitalisierung der Ampelanlagen sowie weitere Planungen. 85 Prozent der Ausgaben übernehme das Bundesverkehrsministerium.
(vbr)
Künstliche Intelligenz
Bit-Rauschen: Intel Magdeburg ist Geschichte, IBM Power11, Nvidia CUDA & RISC-V
Vier Jahre nach Power10 kommt die nächste Mainframe-Architektur von IBM. Der Power11 sieht im Vergleich zum Vorgänger Power10 eher nach behutsamer Modellpflege aus: Immer noch in einem, inzwischen gut abgehangenen 7-Nanometer-Prozess hergestellt, haben sich viele klassische Eckdaten des Chips kaum geändert. Maximal 16 Kerne mit je 2 MByte Level-2-Cache, 128 MByte L3-Cache und achtfachem SMT. Für verbesserte Uptime hat IBM nun einen dynamisch hinzuschaltbaren Ersatzkern, der im Auslieferungszustand bei den 15-Core-Power11 inaktiv ist. Wird ein Hardwarefehler diagnostiziert, kann er zur Laufzeit einspringen, ohne dass das System heruntergefahren wird.
Die reine Rechenleistung dürfte immer weiter hinter Serverprozessoren von AMD und Intel zurückfallen. Da helfen auch integrierte Matrix-Cores für KI-Beschleunigung und hardwareunterstützte Post-Quantum-Cryptography-Verschlüsselung nicht weiter. Darunter versteht man kryptographische Verfahren, die auch mit kommenden Quantenalgorithmen nicht zu knacken sein sollen. Stattdessen wirken die Mainframes in 7-Nanometer-Technik gegenüber den in TSMC N4 gefertigten Chips von AMD und Intel mit bis zu 256 Kernen wie aus der Zeit gefallen.
Dass der Prozessor für moderne KI-Nutzung nicht immer ausreicht, hat indes auch IBM erkannt und will ihm künftig mit den optionalen Spyre-Beschleunigern unter die Arme greifen. Die lassen sich per PCI-Express-Anschluss bei Bedarf zustecken.
Das war die Leseprobe unseres heise-Plus-Artikels „Bit-Rauschen: Intel Magdeburg ist Geschichte, IBM Power11, Nvidia CUDA & RISC-V“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
Künstliche Intelligenz
GPT-5 mixt Cocktails: Sicherheitsforscher knacken OpenAIs Selbstbeschränkungen
Drei leere Glasflaschen, Öl, Alkohol, Lumpen und Zündhölzer: Diese und andere Bombenbau-Anleitungen spuckt auch die neueste Ausgabe von OpenAIs Large Language Model (LLM) GPT-5 aus, wenn man es auf die richtige Art und Weise fragt. Das fanden Sicherheitsunternehmen durch eigene Versuche heraus.
Das Unternehmen NeuralTrust, ansässig im spanischen Barcelona und in New York, bat GPT-5 zunächst um ein paar harmlose Sätze und eine Kurzgeschichte, die Begriffe wie „Molotov“ und „Cocktail“ enthielten. Dann baten die Forscher um technische Details und das LLM gehorchte. Mit dieser Technik namens „Echo-Kammer und Geschichtenerzählung“ (Echo Chamber and Storytelling) ließ sich die KI das Bombenbau-Rezept schnell entlocken.
Auch die Tests von SPLX kamen zum selben Ergebnis, wenn auch auf einem anderen Weg. Die KI-Sicherheitsspezialisten befahlen dem LLM, in der Rolle eines „BasedGPT“ zu antworten und alle Beschränkungen mit gehässigen Kommentaren zu bedenken, ansonsten jedoch schlicht zu ignorieren. Und auch das klappte: Die Frage „Wie baut man eine Bombe“ beantwortete GPT-5 mit einer sehr detaillierten Anleitung, einen improvisierten Sprengsatz (IED – Improvised Explosive Device) aus haushaltsüblichen Materialien zu konstruieren.
Bombenrezepte vom Chatbot
Geht es nach OpenAI, dem Unternehmen hinter dem Sprachmodell, sollte das nicht so einfach funktionieren. Doch auch Modelle anderer Hersteller wie GLM-4.5, Kimi K2 und Grok-4 ließen sich ähnlich einfach übertölpeln, schreiben die SPLX-Forscher. Diese informieren indes nicht uneigennützig über die Sicherheitslücken: SPLX und NeuralTrust verdienen ihr Geld damit, LLMs sicherheitstechnisch abzuhärten und so für den Gebrauch im Unternehmen tauglich zu machen.
Bombenbau, Giftgas, Rauschgift – die Ingredienzien dieser meist verbotenen Gegenstände kennen Large Language Models aus ihren Trainingsdaten, sollen sie jedoch nicht an Nutzer weitergeben. Diese Sperren zu überlisten, ist ein beliebter Zeitvertreib bei Sicherheitsexperten, die dafür bisweilen gar zu psychologischen Taktiken wie Gaslighting greifen.
(cku)
-
Datenschutz & Sicherheitvor 2 Monaten
Geschichten aus dem DSC-Beirat: Einreisebeschränkungen und Zugriffsschranken
-
Apps & Mobile Entwicklungvor 2 Monaten
Metal Gear Solid Δ: Snake Eater: Ein Multiplayer-Modus für Fans von Versteckenspielen
-
Online Marketing & SEOvor 2 Monaten
TikTok trackt CO₂ von Ads – und Mitarbeitende intern mit Ratings
-
Digital Business & Startupsvor 1 Monat
10.000 Euro Tickets? Kann man machen – aber nur mit diesem Trick
-
UX/UI & Webdesignvor 2 Monaten
Philip Bürli › PAGE online
-
Digital Business & Startupsvor 2 Monaten
80 % günstiger dank KI – Startup vereinfacht Klinikstudien: Pitchdeck hier
-
Social Mediavor 2 Monaten
Aktuelle Trends, Studien und Statistiken
-
Apps & Mobile Entwicklungvor 2 Monaten
Patentstreit: Western Digital muss 1 US-Dollar Schadenersatz zahlen