Connect with us

Künstliche Intelligenz

Xbench: Chinesischer KI-Benchmark prüft Modelle auf Alltagstauglichkeit


Beim Testen eines KI-Modells ist es schwer zu sagen, ob es tatsächlich selbstständig Schlussfolgerungen ziehen kann oder nur Antworten aus seinen Trainingsdaten wiedergibt. Xbench, ein neues Benchmarksystem, das von der chinesischen Risikokapitalfirma HSG (steht für HongShan Capital Group) entwickelt wurde, könnte dabei helfen, dieses Problem zu lösen. Das liegt daran, dass die Modelle von der Software nicht nur anhand ihrer Fähigkeit bewertet werden, willkürliche Tests zu bestehen, wie dies bei den meisten anderen Benchmarks der Fall ist. Stattdessen werden auch ihre Fähigkeiten, reale Aufgaben auszuführen, überprüft – was bis dato eher ungewöhnlich ist. Xbench wird zudem regelmäßig aktualisiert, um ihn auf dem neuesten Stand zu halten, was dabei hilft, zu vermeiden, dass KI-Firmen sich einfach an ihn anpassen und somit schummeln.

Ein Teil des in dem neuen Benchmark enthaltenen Fragenkatalogs wurde jetzt quelloffen zur Verfügung gestellt, sodass jeder das vorhandene System kostenlos nutzen kann. Das Team hat außerdem eine Rangliste veröffentlicht, in der die gängigen KI-Modelle im Vergleich zueinander bewertet werden, wenn sie mit Xbench überprüft werden. ChatGPT o3 belegte in allen Kategorien den ersten Platz, aber auch Doubao von ByteDance, Gemini 2.5 Pro und Grok von X.ai schnitten recht gut ab – ebenso wie Claude Sonnet von Anthropic.

Die Entwicklung des Benchmarks von HSG begann bereits 2022 nach dem Durchbruch von ChatGPT. Damals war es noch als internes Werkzeug zur Bewertung neuer Modelle gedacht, um herauszufinden, ob sich Investitionen lohnen. Seitdem hat das Team unter der Leitung von Gong Yuan das System stetig erweitert und externe Forschende und Fachleute hinzugezogen, um es zu verfeinern. Als das Projekt immer komplexer wurde, beschlossen sie, es der Öffentlichkeit zugänglich zu machen.

Xbench geht das Problem, die Leistungsfähigkeit neuer Modelle zu ermitteln, mit zwei verschiedenen Ansätzen an. Der erste ähnelt dem traditionellen Benchmarking: ein akademischer Test, der die Eignung eines Modells für verschiedene Themen misst. Der zweite ähnelt eher einem Vorstellungsgespräch für eine technische Stellung. Dabei wird bewertet, welchen wirtschaftlichen Nutzen ein Modell in der Praxis liefern könnte.

Die Methoden von Xbench zur Bewertung der rohen Intelligenz umfassen derzeit zwei Komponenten: Xbench-ScienceQA und Xbench-DeepResearch. ScienceQA unterscheidet sich nicht grundlegend von bestehenden Prüfungen für Postgraduierte im MINT-Bereich wie GPQA und SuperGPQA. Es umfasst Fragen aus verschiedenen wissenschaftlichen Bereichen – von Biochemie bis Orbitalmechanik –, die von Doktoranden verfasst und von Professoren doppelt überprüft wurden. Bewertet werden nicht nur die richtigen Antworten, sondern auch die Lösungswege, die zu ihnen führen.

Xbench DeepResearch hingegen konzentriert sich auf die Fähigkeit eines Modells, sich im chinesischsprachigen Internet zurechtzufinden. Zehn Fachexperten haben 100 Fragen zu den Themen Musik, Geschichte, Finanzen und Literatur erstellt – Fragen, die nicht einfach ergoogelt werden können, sondern umfangreiche Recherchen erfordern.

Bei der Bewertung werden die Breite der verwendeten Quellen, die faktische Konsistenz der Antworten und die Bereitschaft eines Modells, zuzugeben, wenn nicht genügend Daten vorhanden sind, positiv bewertet. Eine Frage aus der von HSG veröffentlichten Sammlung lautet etwa: „Wie viele chinesische Städte in den drei nordwestlichen Provinzen grenzen an ein anderes Land?“ (Die Antwort lautet 12, und nur 33 Prozent der getesteten Modelle antworteten richtig.)

Auf der Website von HSG gaben die Forschenden an, dass sie ihren Benchmark um weitere Dimensionen erweitern möchten, beispielsweise um Aspekte wie die Kreativität eines Modells bei der Problemlösung, seine Kooperationsfähigkeit bei der Zusammenarbeit mit anderen Modellen (falls das technisch inkludiert ist) und seine Zuverlässigkeit. Das Team hat sich dabei verpflichtet, die Testfragen einmal pro Quartal zu aktualisieren und einen halb öffentlichen, halb privaten Datensatz zu pflegen. Damit sollte es Modellanbietern nicht möglich sein, ihr System auf Xbench zu trainieren.

Um die Praxistauglichkeit und den wirtschaftlichen Wert eines Modells zu bewerten, hat das Team in Zusammenarbeit mit externen Experten weiterhin Aufgaben entwickelt, die auf tatsächlichen Arbeitsabläufen basieren. Zunächst betrifft dies die Bereiche Personalbeschaffung und Marketing, später sollen weitere hinzukommen.

Bei einer der Aufgaben soll ein Modell beispielsweise fünf qualifizierte Kandidaten für eine Stelle als Ingenieur in einem Batteriewerk finden und die Auswahl ausführlich begründen. In einer anderen Aufgabe soll es wiederum Werbekunden mit geeigneten Kurzvideo-Erstellern aus einem Pool von über 800 Influencern zusammenbringen.

HSG kündigt für Xbench auch weitere Kategorien an, darunter Finanzen, Recht, Buchhaltung und Design. Die Fragenkataloge für diese Kategorien sind noch nicht öffentlich zugänglich. Bei den bereits bekannten belegte ChatGPT o3 erneut den ersten Platz in beiden Berufskategorien. Bei der Personalbeschaffung im Bereich Batterietechnik belegen Perplexity Search und Claude 3.5 Sonnet den zweiten und dritten Platz.

Im Bereich Marketing schneiden Claude, Grok und Gemini alle gut ab. „Es ist wirklich schwierig, Dinge, die so schwer zu quantifizieren sind, in Benchmarks einzubeziehen“, kommentiert Zihan Zheng vom konkurrierenden Benchmarkprojekt LiveCodeBench Pro mit Forschungserfahrung an der New York University. „Aber Xbench ist ein vielversprechender Anfang.“

Dieser Beitrag ist zuerst bei t3n.de erschienen.


(jle)



Source link

Weiterlesen
Kommentar schreiben

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Künstliche Intelligenz

Sony testet Beta-Version zur Bildauthentifizierung


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Sony hat die Beta-Version von „Camera Verify“ vorgestellt, eine Technik, die die Authentizität von Bildern sicherstellen soll. Dass dies bald möglich sein soll, hatte Sony bereits im März angekündigt. Neu in der Beta-Version ist die Möglichkeit, Verifizierungsinformationen über eine URL weiterzugeben. Nachrichtenorganisationen können diese URLs dann an Dritte weiterreichen, die so die Authentizität eines Bildes überprüfen können. Dies soll den Prüfprozess erheblich beschleunigen und die Verbreitung vertrauenswürdiger Inhalte erleichtern.


Das Titelbild der Ausgabe 01 2025 des Foto-Magazins c't Fotografie

Das Titelbild der Ausgabe 01 2025 des Foto-Magazins c't Fotografie

Die Authentifizierungsfunktion in der Kamera erfordert jedoch eine Lizenz, die über die Sony Creators’ Cloud verfügbar ist. Unterstützt werden außerdem bisher nur bestimmte Kameramodelle wie die Alpha 1 II, Alpha 9 III oder Alpha 7 IV.

Wie Sony informiert, basiert die neue Funktion neben der Einbettung dieser C2PA-Signaturen auch auf den 3D-Tiefeninformationen, die die Kameras direkt bei der Aufnahme erstellen. Die digitale Signatur wird direkt in der Kamera erstellt und in Echtzeit in die Bilddatei integriert. Das soll gewährleisten, dass die Aufnahme tatsächlich mit einer Kamera erstellt und nicht etwa durch eine KI generiert wurde. Laut Sony werden auch diese Änderungen dokumentiert, sollte das Bild bearbeitet werden. Bei der Verifizierung wird ein Bericht erstellt, der alle diese Daten zusammenfasst. Über die oben genannte URL können Nutzer diesen Bericht einsehen und so die Echtheit eines Bildes überprüfen.

Zielgruppe sind, wie der Hersteller damals schon bekannt gab, vorerst nur ausgewählte Nachrichtenagenturen. Fotojournalisten und Medienunternehmen, die nicht zu diesem Kreis gehören, profitieren von der neuen Technik vorerst nicht.

Da sich die Medienlandschaft zunehmend mit manipulierten oder KI-generierten Inhalten konfrontiert sieht, hat Adobe bereits vor einigen Jahren das Echtheitssiegel nach CAI/C2PA angestoßen, das inzwischen von fast der gesamten Fotobranche unterstützt wird. Die Initiative soll die Entwicklung von Standards, die Transparenz und Nachvollziehbarkeit von Medieninhalten fördern. Neben Sony bieten auch Leica und Nikon Kameras mit C2PA-Signatur an.

Ab Herbst 2025 soll die Kamera-Authentizitätslösung auch für Videos verfügbar sein. Sonys Beta-Version bleibt vorerst kostenlos, Änderungen am Funktionsumfang sind jedoch möglich. Die endgültige Verfügbarkeit für alle Kunden steht bisher nicht fest.


(cbr)



Source link

Weiterlesen

Künstliche Intelligenz

Chatbot für Schulen: Bremen macht den Anfang


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Künstliche Intelligenz im Bildungsbereich – das klingt nach einem heißen Eisen. Besonders der unstillbare Datenhunger der großen LLM-Anbieter nach Trainingsmaterial steht dem Gebrauch der großen bekannten Modelle in Schulen auf dem ersten Blick im Wege. Ein eigener KI-Chatbot namens „Telli“ soll es jetzt aber richten. Bremen führt diesen als erstes Bundesland in Deutschland ein, wie die Senatorin für Kinder und Bildung mitteilte. Später einmal soll er in Schulen bundesweit zum Einsatz kommen.

Der Chatbot ist Teil des länderübergreifenden Projekts „Adaptives Intelligentes System“ (AIS) und soll Lehrkräften sowie Schülerinnen und Schülern einen geschützten Zugang zu generativer KI ermöglichen. Telli unterscheidet sich dabei von kommerziellen KI-Diensten durch seinen Datenschutzansatz. Das System arbeite ausschließlich mit pseudonymisierten Nutzerdaten und werde vollständig innerhalb der Europäischen Union gehostet, heißt es seitens der zuständigen Behörden. Dadurch sollen keine personenbezogenen Daten an US-amerikanische oder andere Unternehmen aus dem KI-Sektor übermittelt werden. Die eingegebenen Daten fließen auch nicht in das Training der zugrundeliegenden Modelle ein.

„Wir wollen Schülerinnen und Schüler auf eine Zukunft vorbereiten, in der der Umgang mit Künstlicher Intelligenz selbstverständlich sein wird“, erklärt Sascha Aulepp, Bremens Senatorin für Kinder und Bildung. „Dafür brauchen sie Orientierung, Kompetenz – und Räume, in denen sie KI verantwortungsvoll erproben können.“ Der Chatbot steht künftig an allen öffentlichen Schulen im Bundesland zur Verfügung.

Technisch basiert Telli auf einer Open-Source-Architektur, die seit November 2024 entwickelt wird. Die Plattform fungiert als Zwischenschicht zwischen verschiedenen Large Language Models (LLMs), darunter auch Modelle von OpenAI und Meta, und den Endnutzern. Lehrkräfte können eigene Dokumente hochladen, um kontextspezifische Antworten zu erhalten, und fachdidaktische Lernszenarien erstellen, die sich per QR-Code oder Link mit Schülerinnen und Schülern teilen lassen.

Telli wurde speziell für den Einsatz im Unterricht entwickelt. Lehrkräfte können den KI-Chatbot sowohl zur Unterrichtsvorbereitung als auch im Unterricht selbst nutzen. Darüber hinaus haben sie die Möglichkeit, Telli für ihre Schülerinnen und Schüler freizugeben.

Die Anbindung an das schulische Identity-Management-System VIDIS (Vernetzungsinfrastruktur Digitale Identitäten für Schulen) ermöglicht eine nahtlose Integration in die bestehende IT-Infrastruktur der Schulen. Nutzer können sich ohne zusätzliche Registrierung anmelden.

Das Telli-Projekt ist eingebettet in das größere AIS-Vorhaben, das vom FWU (Institut für Film und Bild in Wissenschaft und Unterricht) koordiniert wird. Alle 16 Bundesländer sind an dem Projekt beteiligt.

Das AIS-System soll künftig eine umfassende digitale Lernumgebung bereitstellen, die weit über den Chatbot hinausgeht. Geplant sind adaptive Lernmaterialien, ein intelligentes Empfehlungssystem und Tutorfunktionen, die Schüler individuell unterstützen und Lehrkräfte entlasten sollen. Das System wird auch kommerzielle Bildungsmedien-Anbieter einbinden können – ein „Marktplatz“ für lizenzpflichtige Inhalte ist vorgesehen.

Die technische Umsetzung berücksichtigt die unterschiedlichen Anforderungen der Länder. Konfigurationsmöglichkeiten sollen es ermöglichen, dass Bundesländer eigene oder selbst beschaffte LLMs nutzen können. Schulträger und Länder können den Code einsehen und bei Bedarf anpassen. Dies soll unter anderem die Abhängigkeit von einzelnen Anbietern reduzieren.


(mki)



Source link

Weiterlesen

Künstliche Intelligenz

Kleiner, später, nicht mehr „Made in USA“: T1 Phone nach unten korrigiert


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Wird das T1 Phone der Trump Organization wirklich in den USA gebaut? An der Behauptung der hinter dem Handy stehenden Trump Organization gibt es massive Zweifel, die sich nun offenbar bestätigen: Die Trump Organization hat die Aussage, das Handy sei „Made in the USA“, von der Webseite des T1 Phones entfernt.

Das ist eine von mehreren heimlichen Änderungen, die unter anderem dem Technik-Magazin The Verge aufgefallen sind. So sei auf der Shop-Seite des „Trump-Handys“ ursprünglich etwa ein großes Banner mit dem Schriftzug „MADE IN THE USA“ zu sehen gewesen, das offenbar in den vergangenen Tagen entfernt wurde. Mittlerweile finden sich dort nur noch vage Andeutungen und Absichtsbekundungen. Das Handy sei „proudly american“, heißt es dort etwa, also „stolz amerikanisch.“ Oder: Das Handy sei mit „amerikanischen Werten“ designt worden.

Obwohl die Webseite des Trump-Phones geändert wurde, beharrt ein Sprecher der Trump Organization gegenüber CNBC darauf, dass das Handy in den USA hergestellt werde. Das gilt aber als ausgeschlossen: Es gibt schlicht keine entsprechende Infrastruktur in den USA. Apple lässt die Komponenten für seine Handys unter anderem in Taiwan, China und Indien bauen. Mit einem Schlag Fabriken, Know-how und Arbeitskraft für die Fertigung in den USA aus dem Boden zu stampfen, ist praktisch unmöglich. Immerhin sollte das Smartphone laut Ankündigung bereits im September auf den Markt kommen.

Das ist eine weitere Änderung, die The Verge aufgefallen ist: Das Release-Datum wird nun weniger konkret angegeben. Anstelle von „September“ heißt es auf der Webseite des T1 Phones nun, das Handy werde „später in diesem Jahr“ auf den Markt kommen. Sogar die Hardware-Spezifikationen des Handys haben sich verändert. Der Bildschirm des Handys schrumpfte dem Datenblatt zufolge plötzlich von 6,8 auf 6,25 Zoll. Zudem wird der Arbeitsspeicher gar nicht mehr angegeben. Angaben zum Prozessor macht die Trump Organization nach wie vor nicht.

Das T1 Phone hat die Trump Organization Mitte Juni gemeinsam mit einem Mobilfunktarif vorgestellt. Auch zu diesem Tarif bleiben viele Fragen offen. So ist aktuell noch immer nicht bekannt, welcher Mobilfunkprovider das Netz für den Trump-Tarif stellt. Die Trump Organization ist eine Holding-Gesellschaft für mehrere Geschäfte und Immobilien von US-Präsident Donald Trump.


(dahe)



Source link

Weiterlesen

Beliebt