Künstliche Intelligenz
Xbench: Chinesischer KI-Benchmark prüft Modelle auf Alltagstauglichkeit
Beim Testen eines KI-Modells ist es schwer zu sagen, ob es tatsächlich selbstständig Schlussfolgerungen ziehen kann oder nur Antworten aus seinen Trainingsdaten wiedergibt. Xbench, ein neues Benchmarksystem, das von der chinesischen Risikokapitalfirma HSG (steht für HongShan Capital Group) entwickelt wurde, könnte dabei helfen, dieses Problem zu lösen. Das liegt daran, dass die Modelle von der Software nicht nur anhand ihrer Fähigkeit bewertet werden, willkürliche Tests zu bestehen, wie dies bei den meisten anderen Benchmarks der Fall ist. Stattdessen werden auch ihre Fähigkeiten, reale Aufgaben auszuführen, überprüft – was bis dato eher ungewöhnlich ist. Xbench wird zudem regelmäßig aktualisiert, um ihn auf dem neuesten Stand zu halten, was dabei hilft, zu vermeiden, dass KI-Firmen sich einfach an ihn anpassen und somit schummeln.
Ein Teil des in dem neuen Benchmark enthaltenen Fragenkatalogs wurde jetzt quelloffen zur Verfügung gestellt, sodass jeder das vorhandene System kostenlos nutzen kann. Das Team hat außerdem eine Rangliste veröffentlicht, in der die gängigen KI-Modelle im Vergleich zueinander bewertet werden, wenn sie mit Xbench überprüft werden. ChatGPT o3 belegte in allen Kategorien den ersten Platz, aber auch Doubao von ByteDance, Gemini 2.5 Pro und Grok von X.ai schnitten recht gut ab – ebenso wie Claude Sonnet von Anthropic.
Lohnt sich die Investition? KI-Benchmark soll es klären
Die Entwicklung des Benchmarks von HSG begann bereits 2022 nach dem Durchbruch von ChatGPT. Damals war es noch als internes Werkzeug zur Bewertung neuer Modelle gedacht, um herauszufinden, ob sich Investitionen lohnen. Seitdem hat das Team unter der Leitung von Gong Yuan das System stetig erweitert und externe Forschende und Fachleute hinzugezogen, um es zu verfeinern. Als das Projekt immer komplexer wurde, beschlossen sie, es der Öffentlichkeit zugänglich zu machen.
Xbench geht das Problem, die Leistungsfähigkeit neuer Modelle zu ermitteln, mit zwei verschiedenen Ansätzen an. Der erste ähnelt dem traditionellen Benchmarking: ein akademischer Test, der die Eignung eines Modells für verschiedene Themen misst. Der zweite ähnelt eher einem Vorstellungsgespräch für eine technische Stellung. Dabei wird bewertet, welchen wirtschaftlichen Nutzen ein Modell in der Praxis liefern könnte.
Wie schlagen sich KI-Modelle in Wissenschaft und Recherche?
Die Methoden von Xbench zur Bewertung der rohen Intelligenz umfassen derzeit zwei Komponenten: Xbench-ScienceQA und Xbench-DeepResearch. ScienceQA unterscheidet sich nicht grundlegend von bestehenden Prüfungen für Postgraduierte im MINT-Bereich wie GPQA und SuperGPQA. Es umfasst Fragen aus verschiedenen wissenschaftlichen Bereichen – von Biochemie bis Orbitalmechanik –, die von Doktoranden verfasst und von Professoren doppelt überprüft wurden. Bewertet werden nicht nur die richtigen Antworten, sondern auch die Lösungswege, die zu ihnen führen.
Xbench DeepResearch hingegen konzentriert sich auf die Fähigkeit eines Modells, sich im chinesischsprachigen Internet zurechtzufinden. Zehn Fachexperten haben 100 Fragen zu den Themen Musik, Geschichte, Finanzen und Literatur erstellt – Fragen, die nicht einfach ergoogelt werden können, sondern umfangreiche Recherchen erfordern.
Bei der Bewertung werden die Breite der verwendeten Quellen, die faktische Konsistenz der Antworten und die Bereitschaft eines Modells, zuzugeben, wenn nicht genügend Daten vorhanden sind, positiv bewertet. Eine Frage aus der von HSG veröffentlichten Sammlung lautet etwa: „Wie viele chinesische Städte in den drei nordwestlichen Provinzen grenzen an ein anderes Land?“ (Die Antwort lautet 12, und nur 33 Prozent der getesteten Modelle antworteten richtig.)
Auf der Website von HSG gaben die Forschenden an, dass sie ihren Benchmark um weitere Dimensionen erweitern möchten, beispielsweise um Aspekte wie die Kreativität eines Modells bei der Problemlösung, seine Kooperationsfähigkeit bei der Zusammenarbeit mit anderen Modellen (falls das technisch inkludiert ist) und seine Zuverlässigkeit. Das Team hat sich dabei verpflichtet, die Testfragen einmal pro Quartal zu aktualisieren und einen halb öffentlichen, halb privaten Datensatz zu pflegen. Damit sollte es Modellanbietern nicht möglich sein, ihr System auf Xbench zu trainieren.
Test für Praxisabläufe: etwa Recruiting und Marketing
Um die Praxistauglichkeit und den wirtschaftlichen Wert eines Modells zu bewerten, hat das Team in Zusammenarbeit mit externen Experten weiterhin Aufgaben entwickelt, die auf tatsächlichen Arbeitsabläufen basieren. Zunächst betrifft dies die Bereiche Personalbeschaffung und Marketing, später sollen weitere hinzukommen.
Bei einer der Aufgaben soll ein Modell beispielsweise fünf qualifizierte Kandidaten für eine Stelle als Ingenieur in einem Batteriewerk finden und die Auswahl ausführlich begründen. In einer anderen Aufgabe soll es wiederum Werbekunden mit geeigneten Kurzvideo-Erstellern aus einem Pool von über 800 Influencern zusammenbringen.
HSG kündigt für Xbench auch weitere Kategorien an, darunter Finanzen, Recht, Buchhaltung und Design. Die Fragenkataloge für diese Kategorien sind noch nicht öffentlich zugänglich. Bei den bereits bekannten belegte ChatGPT o3 erneut den ersten Platz in beiden Berufskategorien. Bei der Personalbeschaffung im Bereich Batterietechnik belegen Perplexity Search und Claude 3.5 Sonnet den zweiten und dritten Platz.
Im Bereich Marketing schneiden Claude, Grok und Gemini alle gut ab. „Es ist wirklich schwierig, Dinge, die so schwer zu quantifizieren sind, in Benchmarks einzubeziehen“, kommentiert Zihan Zheng vom konkurrierenden Benchmarkprojekt LiveCodeBench Pro mit Forschungserfahrung an der New York University. „Aber Xbench ist ein vielversprechender Anfang.“
Dieser Beitrag ist zuerst bei t3n.de erschienen.
(jle)
Künstliche Intelligenz
Xiaomi stellt eigene KI-Brille im Stil der Ray-Ban Meta vor
Die neuen Smart Glasses von Xiaomi sind ähnlich schlank gebaut wie das Konkurrenzmodell, mit 40 Gramm jedoch etwas leichter.
Bei der technischen Ausstattung gibt es keine großen Unterschiede: Die Xiaomi AI Glasses verfügen ebenfalls über eine 12-Megapixel-Frontkamera, zwei Lautsprecher sowie fünf Mikrofone mit Windgeräuschunterdrückung. Wie Metas Brillen unterstützen sie Echtzeit-Livestreaming und Videotelefonie aus der Ich-Perspektive. Xiaomis KI-Brille kommt ohne Display aus, genauso wie Metas Produkt.
Angetrieben werden die Xiaomi AI Glasses von einem Dual-Chip-System, bestehend aus dem Snapdragon AR1-Prozessor, der auch in Metas KI-Brillen zum Einsatz kommt, sowie einem zweiten, stromsparenden Chip, auf dem Xiaomis Betriebssystem Vela OS läuft. Die Brille ist mit einem integrierten 263-mAh-Akku ausgestattet, der eine Laufzeit von bis zu 8,6 Stunden ermöglicht. Das entspricht etwa dem Doppelten der Ray-Ban Meta-Brille, aber liegt auf dem Niveau der erst kürzlich vorgestellten Oakley Meta-Brille.
Viele KI-Funktionen
Wie der Name nahelegt, bieten die Xiaomi AI Glasses eine Reihe von KI-Funktionen, darunter Objekterkennung, Textübersetzung, Transkription, intelligente Zusammenfassungen und Kalorienzählung. Sie sollen außerdem als „Meeting-Assistent“ taugen, alltägliche Fragen beantworten können und Live-Übersetzung in zehn Sprachen, darunter Englisch, Japanisch, Deutsch und Spanisch, bieten. Die Ray-Ban Meta-Brille beherrscht diese Funktion derzeit nur in Englisch, Spanisch, Italienisch und Französisch.
Xiaomis KI-Brille ist in den Farben Schwarz, Braun und Grün erhältlich. Optional sind elektrochrome Gläser erhältlich, die ihre Tönung in 0,2 Sekunden ändern. Der Rahmen verfügt über Scharniere aus Titanlegierung für langlebige Haltbarkeit und einen komfortablen Sitz, der laut Xiaomi speziell für asiatische Gesichtskonturen entwickelt wurde.
Xiaomi fehlt die Strahlkraft einer großen Brillenmarke
Eine Markteinführung im Westen ist mit diesem Modell offenbar nicht vorgesehen. Xiaomi will erst einmal testen, wie das Produkt auf dem heimischen Markt ankommt, wo keine Konkurrenz seitens Meta herrscht.
Die Xiaomi AI Glasses sind ab sofort ab 1.999 RMB in China erhältlich, was circa 250 Euro entspricht. Das ist günstiger als Metas Ray Ban-Brille, die in Deutschland ab 330 Euro erhältlich ist. Allerdings fehlt Xiaomis Modell ein vergleichbar ikonisches Design mit hohem Wiedererkennungswert. Zudem bietet Meta mittlerweile deutlich mehr Auswahl bei Modellen sowie Farb- und Linsenkombinationen. Beides dürfte entscheidend für den Erfolg von Smart Glasses im Massenmarkt sein. Google, das ebenfalls an KI-Brillen arbeitet, setzt auf eine Partnerschaft mit den Brillenherstellern Warby Parker und Gentle Monster.
Ob Xiaomis Kopie der Ray-Ban Meta Glasses technisch und funktional mit dem Original mithalten kann, lässt sich derzeit nicht beurteilen. Das muss ein Praxistest zeigen.
(tobe)
Künstliche Intelligenz
Streetfotografie in Bolognas Altstadt | heise online
Sind Sie eine begeisterte Fotografin oder leidenschaftlicher Fotograf? Lieben Sie die Architektur des Mittelalters oder schwärmen für ein gutes Glas Wein und die italienische Küche in all ihren Facetten? Bologna bietet Ihnen dies in der Altstadt auf kleinstem Raum. Diese komprimierte Atmosphäre wird Sie verzaubern. Und wenn dann noch der Kameraakku voll und die SD-Karte leer ist, stehen einem fotografisch-kulinarischen Freudenfest alle Tore offen.
Bologna ist die Hauptstadt der italienischen Region Emilia-Romagna und mit etwa 380.000 Einwohnern schon recht groß. Die Bausubstanz ist Zeuge einer großen kulturellen Vergangenheit. Durch viele erhaltene Gebäude aus dem Mittelalter und der Renaissance ist Bologna ein architektonisches Schmuckstück. Einzigartig sind besonders die insgesamt rund 37 Kilometer langen Arkadengänge, die sogenannten Portici.
Zwischen den prachtvollen Bauten, auf den romantischen Plätzen und in den manchmal engen Straßen tummeln sich Touristen, Einheimische und Studenten. Die älteste Universität der westlichen Welt steht in dieser Stadt. Sie stammt aus dem 11. Jahrhundert. Die Studenten erzeugen ein internationales und vitales Flair. Es lässt sich gut in Bologna leben.
Das war die Leseprobe unseres heise-Plus-Artikels „Streetfotografie in Bolognas Altstadt“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.
Künstliche Intelligenz
Weltraumteleskop James Webb bildet erstmals Exoplaneten direkt ab
Einem Forschungsteam aus Frankreich ist es gelungen, mit dem Weltraumteleskop James Webb erstmals einen Exoplaneten direkt abzubilden. Sollte sich das bestätigen, wäre das für das neue Gerät ein Novum, die Hoffnung ist aber, dass weitere Nachweise folgen werden. Entdeckt wurde der Exoplanet bei einem Stern mit der Bezeichnung TWA 7, der etwa 111 Lichtjahre von uns entfernt ist. Der Exoplanet ist demnach ungefähr 50 Astronomische Einheiten von seinem Stern entfernt und hat etwa die Masse des Saturn. Insgesamt habe das modernste Weltraumteleskop die Möglichkeit, sogar Exoplaneten nachzuweisen, die nur ein Drittel dieser Masse haben.
Auf dem Weg zur Abbildung erdgroßer Exoplaneten
Wie das Forschungsteam um Anne-Marie Lagrange vom Pariser Observatorium erklärt, haben sie für ihre Arbeit einen Koronagraph am MIRI-Instrument des Weltraumteleskops benutzt. Damit lässt sich der ferne Stern selbst abdunkeln, während seine direkte Umgebung sichtbar bleibt. Ausgenutzt haben sie das an einem besonders lohnenswerten Ziel, denn das System von TWA 8 sehen wir direkt von oben. Dort gibt es drei Ringe aus Staub und in einem davon eine auffällige Lücke. Genau dort haben sie den Exoplaneten entdeckt, bei dem es sich wohl um einen vergleichsweise jungen Himmelskörper handelt. Weil der noch nicht komplett abgekühlt und etwa 47 Grad Celsius warm ist, ist er im infraroten Spektrum besser zu erkennen.
Für das Weltraumteleskop James Webb bedeute die Entdeckung einen weiteren Meilenstein, weil es bestätigt, dass das Gerät kleinere Himmelskörper finden kann als andere Instrumente. „Dieses Teleskop ermöglicht es uns, Planeten mit Massen abzubilden, die denen der Planeten im Sonnensystem entsprechen“, sagt Co-Autorin Mathilde Malin vom Space Telescope Science Institute. Der Fund bereite deshalb den Weg für die direkte Abbildung von Exoplaneten, die etwa die Masse der Erde haben. Noch ist das aber etwas entfernt, der jetzt vorgestellte Exoplanet kommt auf etwa 100 Erdenmassen. Vorgestellt wird die Entdeckung im Fachmagazin Nature.
(mho)
-
Social Mediavor 2 Wochen
LinkedIn Feature-Update 2025: Aktuelle Neuigkeiten
-
Social Mediavor 2 Wochen
Aktuelle Trends, Studien und Statistiken
-
Online Marketing & SEOvor 2 Wochen
Aus Marketing, Medien, Agenturen & Tech: Diese 40 klugen Köpfe unter 40 müssen Sie kennen
-
Social Mediavor 2 Wochen
“Wir haben doch nichts zu erzählen…” – 3 Tricks für neue Social Media Content Ideen
-
UX/UI & Webdesignvor 2 Wochen
Philip Bürli › PAGE online
-
Online Marketing & SEOvor 2 Wochen
Influencer Marketing: Warum Influencer Vertrauen verlieren und klassische Medien gewinnen
-
UX/UI & Webdesignvor 2 Wochen
Wie gelingt eine einwandfreie Zusammenarbeit?
-
Online Marketing & SEOvor 2 Wochen
#WantaFanta: Warum Fanta und Nico Santos der Gen Z Wünsche erfüllen