Connect with us

Künstliche Intelligenz

Xbench: Chinesischer KI-Benchmark prüft Modelle auf Alltagstauglichkeit


Beim Testen eines KI-Modells ist es schwer zu sagen, ob es tatsächlich selbstständig Schlussfolgerungen ziehen kann oder nur Antworten aus seinen Trainingsdaten wiedergibt. Xbench, ein neues Benchmarksystem, das von der chinesischen Risikokapitalfirma HSG (steht für HongShan Capital Group) entwickelt wurde, könnte dabei helfen, dieses Problem zu lösen. Das liegt daran, dass die Modelle von der Software nicht nur anhand ihrer Fähigkeit bewertet werden, willkürliche Tests zu bestehen, wie dies bei den meisten anderen Benchmarks der Fall ist. Stattdessen werden auch ihre Fähigkeiten, reale Aufgaben auszuführen, überprüft – was bis dato eher ungewöhnlich ist. Xbench wird zudem regelmäßig aktualisiert, um ihn auf dem neuesten Stand zu halten, was dabei hilft, zu vermeiden, dass KI-Firmen sich einfach an ihn anpassen und somit schummeln.

Ein Teil des in dem neuen Benchmark enthaltenen Fragenkatalogs wurde jetzt quelloffen zur Verfügung gestellt, sodass jeder das vorhandene System kostenlos nutzen kann. Das Team hat außerdem eine Rangliste veröffentlicht, in der die gängigen KI-Modelle im Vergleich zueinander bewertet werden, wenn sie mit Xbench überprüft werden. ChatGPT o3 belegte in allen Kategorien den ersten Platz, aber auch Doubao von ByteDance, Gemini 2.5 Pro und Grok von X.ai schnitten recht gut ab – ebenso wie Claude Sonnet von Anthropic.

Die Entwicklung des Benchmarks von HSG begann bereits 2022 nach dem Durchbruch von ChatGPT. Damals war es noch als internes Werkzeug zur Bewertung neuer Modelle gedacht, um herauszufinden, ob sich Investitionen lohnen. Seitdem hat das Team unter der Leitung von Gong Yuan das System stetig erweitert und externe Forschende und Fachleute hinzugezogen, um es zu verfeinern. Als das Projekt immer komplexer wurde, beschlossen sie, es der Öffentlichkeit zugänglich zu machen.

Xbench geht das Problem, die Leistungsfähigkeit neuer Modelle zu ermitteln, mit zwei verschiedenen Ansätzen an. Der erste ähnelt dem traditionellen Benchmarking: ein akademischer Test, der die Eignung eines Modells für verschiedene Themen misst. Der zweite ähnelt eher einem Vorstellungsgespräch für eine technische Stellung. Dabei wird bewertet, welchen wirtschaftlichen Nutzen ein Modell in der Praxis liefern könnte.

Die Methoden von Xbench zur Bewertung der rohen Intelligenz umfassen derzeit zwei Komponenten: Xbench-ScienceQA und Xbench-DeepResearch. ScienceQA unterscheidet sich nicht grundlegend von bestehenden Prüfungen für Postgraduierte im MINT-Bereich wie GPQA und SuperGPQA. Es umfasst Fragen aus verschiedenen wissenschaftlichen Bereichen – von Biochemie bis Orbitalmechanik –, die von Doktoranden verfasst und von Professoren doppelt überprüft wurden. Bewertet werden nicht nur die richtigen Antworten, sondern auch die Lösungswege, die zu ihnen führen.

Xbench DeepResearch hingegen konzentriert sich auf die Fähigkeit eines Modells, sich im chinesischsprachigen Internet zurechtzufinden. Zehn Fachexperten haben 100 Fragen zu den Themen Musik, Geschichte, Finanzen und Literatur erstellt – Fragen, die nicht einfach ergoogelt werden können, sondern umfangreiche Recherchen erfordern.

Bei der Bewertung werden die Breite der verwendeten Quellen, die faktische Konsistenz der Antworten und die Bereitschaft eines Modells, zuzugeben, wenn nicht genügend Daten vorhanden sind, positiv bewertet. Eine Frage aus der von HSG veröffentlichten Sammlung lautet etwa: „Wie viele chinesische Städte in den drei nordwestlichen Provinzen grenzen an ein anderes Land?“ (Die Antwort lautet 12, und nur 33 Prozent der getesteten Modelle antworteten richtig.)

Auf der Website von HSG gaben die Forschenden an, dass sie ihren Benchmark um weitere Dimensionen erweitern möchten, beispielsweise um Aspekte wie die Kreativität eines Modells bei der Problemlösung, seine Kooperationsfähigkeit bei der Zusammenarbeit mit anderen Modellen (falls das technisch inkludiert ist) und seine Zuverlässigkeit. Das Team hat sich dabei verpflichtet, die Testfragen einmal pro Quartal zu aktualisieren und einen halb öffentlichen, halb privaten Datensatz zu pflegen. Damit sollte es Modellanbietern nicht möglich sein, ihr System auf Xbench zu trainieren.

Um die Praxistauglichkeit und den wirtschaftlichen Wert eines Modells zu bewerten, hat das Team in Zusammenarbeit mit externen Experten weiterhin Aufgaben entwickelt, die auf tatsächlichen Arbeitsabläufen basieren. Zunächst betrifft dies die Bereiche Personalbeschaffung und Marketing, später sollen weitere hinzukommen.

Bei einer der Aufgaben soll ein Modell beispielsweise fünf qualifizierte Kandidaten für eine Stelle als Ingenieur in einem Batteriewerk finden und die Auswahl ausführlich begründen. In einer anderen Aufgabe soll es wiederum Werbekunden mit geeigneten Kurzvideo-Erstellern aus einem Pool von über 800 Influencern zusammenbringen.

HSG kündigt für Xbench auch weitere Kategorien an, darunter Finanzen, Recht, Buchhaltung und Design. Die Fragenkataloge für diese Kategorien sind noch nicht öffentlich zugänglich. Bei den bereits bekannten belegte ChatGPT o3 erneut den ersten Platz in beiden Berufskategorien. Bei der Personalbeschaffung im Bereich Batterietechnik belegen Perplexity Search und Claude 3.5 Sonnet den zweiten und dritten Platz.

Im Bereich Marketing schneiden Claude, Grok und Gemini alle gut ab. „Es ist wirklich schwierig, Dinge, die so schwer zu quantifizieren sind, in Benchmarks einzubeziehen“, kommentiert Zihan Zheng vom konkurrierenden Benchmarkprojekt LiveCodeBench Pro mit Forschungserfahrung an der New York University. „Aber Xbench ist ein vielversprechender Anfang.“

Dieser Beitrag ist zuerst bei t3n.de erschienen.


(jle)



Source link

Künstliche Intelligenz

Solar-Förderung: Ministerin Reiche sorgt für Aufruhr


Noch sind die Ankündigungen unscharf, mit denen Bundesministerin für Wirtschaft und Energie Katherina Reiche (CDU) die Debatte vorantreibt. Doch nachdem sie am Wochenende in einem Interview mit der Augsburger Allgemeinen nicht nur weniger Subventionen und mehr Netzdienlichkeit von Solaranlagen-Betreibern gefordert hatte, stoßen die Äußerungen der Ministerin nun auf scharfe Kritik von unterschiedlichen Akteuren der Energiewende.

Will Reiche die Förderung von Solaranlagen ganz abschaffen oder nur etwas reformieren? Eine komplette Streichung der Erneuerbaren-Förderung sei nicht geplant, so eine Sprecherin des Bundeswirtschaftsministeriums am Mittag in Berlin. Es gehe um die Kosten des Gesamtsystems.

Klar ist: Die Ministerin hat mitten im Sommerloch ein Anliegen platziert, das auch viele private Hausbesitzer betrifft. Denn angesichts steigender Energiekosten und sinkender Preise für Photovoltaik-Anlagen ist derzeit die Verlockung groß, selbst auf das Dach zu klettern oder einen Monteur zu beauftragen. Doch wenn die politischen Rahmenbedingungen sich ändern würden, warnt der Bundesverband Solarwirtschaft (BSW), könne das den Markt und die Energiewende abwürgen.

Reiche bringt zudem ins Spiel, Betreiber kleiner Solaranlagen zu Speicherung und Steuerung zu verpflichten: „Bei kleinen PV-Anlagen ist es so, dass die Vielzahl von nicht steuerbaren, kleinen Solaranlagen unkontrolliert einspeist und das Netz unter Stress setzt“, sagte Reiche der Augsburger Allgemeinen. „Deshalb sollten PV-Anlagen mit Stromspeichern verbunden und steuerbar sein, am Markt teilnehmen und ihren Strom vermarkten.“

Der BSW hält dem entgegen, dass bei neuen Solaranlagen immer häufiger eine „Kombination von Solaranlagen mit Batteriespeichern, Elektroautos, Klimaanlagen oder Wärmepumpen“ genutzt werde. Gerade das gewährleiste eine effiziente Nutzung der Netzinfrastruktur, so der Interessenverband.

Wo genau sie die Problemlage verortet, verriet die Ministerin und ehemalige Energiewirtschaftsmanagerin nicht. Relevant sind kleine Solaranlagen in Balkonkraftwerksdimension für Netzstabilität und Steuerbarkeit kaum: Die 1,17 Millionen im Marktstammdatenregister angemeldeten Solaranlagen unter 2kW Spitzenleistung schaffen zusammen maximal ein gutes Gigawatt Bruttoleistung. Deutlich relevanter sind da schon die gut 3,1 Millionen Anlagen zwischen 3 und 15 Kilowatt Spitzenleistung – ein Großteil davon Aufdachanlagen, die in der seltenen Spitze über 28 Gigawatt eigentlich billigen Strom produzieren können.

Allerdings ist nur ein kleiner Teil davon altersbedingt aus der Förderung herausgefallen – und 19 Gigawatt sind erst nach 2015 ans Netz gegangen, werden in den meisten Fällen also für mindestens zehn weitere Jahre Einspeisevergütungen erhalten. Diese schmelzen zwar stückweise ab, doch enthalten auch die aktuellen Regelungen noch garantierte Vergütungen für die jeweils kommenden 20 Jahre ab Inbetriebnahme.

Wer also im August 2025 seine Solaranlage in Betrieb nimmt, kann bis 2045 unabhängig von den Auswirkungen auf das Stromnetz einspeisen und bekommt dafür die stets gleiche Förderung – teils werden sogar noch höhere Zuschläge dafür bezahlt, Strom nicht einzuspeisen. Am Bestandsschutz für die Einspeisevergütung selbst will auch Reiche offenbar nicht rütteln.

Dass dieses Verhalten nicht sinnvoll ist und die Kosten für alle Beteiligten dadurch in die Höhe schnellen, ist branchenweit und technologieübergreifend Konsens. Deutlich unterschiedlich sind hingegen die Ableitungen aus der Problemanalyse. So hält etwa Philipp Schröder, CEO des kapitalmarktgetriebenen PV-und-Speicher-Anlagen-Installateurs 1Komma5Grad eine Debatte über die Abschaffung der Einspeisevergütung für verfrüht. Es brauche „zuerst eine Systemmodernisierung für mehr Digitalisierung und bessere Prozesse: der flächendeckende Smart-Meter-Rollout“, fordert Schröder.

Auch die Vorsitzende des Bundesverbandes Erneuerbare Energien Simone Peter (Grüne) sprach von einer „falschen Debatten zur falschen Zeit“. Wichtiger sei es, die Flexibilität zu erhöhen. Gerade private Photovoltaikanlagen hätten die Akzeptanz stark erhöht.

Dass die Erneuerbaren-Förderung insgesamt kippt, gilt als unwahrscheinlich. Dass aber Steuerbarkeit, Speicherbarkeit und Netzdienlichkeit eine stärkere Rolle spielen müssen, gilt selbst bei den wirtschaftlichen Profiteuren der Energiewende als unstrittig. Einen Hinweis, was sich schnell ändern könnte, gab Reiche in ihrem Interview mit der Augsburger Allgemeinen: Betreiber hätten Anlagen errichten können, „wo sie wollten, ohne auf das Stromnetz Rücksicht zu nehmen“. Tatsächlich könnte das den Hauptunterschied der künftigen Erneuerbaren-Politik ausmachen. Denn damit würde anstelle des Ausbau der Netze um Erneuerbare anzuschließen nur noch der Ausbau Erneuerbarer bei vorhandener Netzkapazität stehen.

Einem anderen Dauerbrenner hatte die jetzt seit fast exakt 100 Tagen im Amt befindliche CDU-Politikerin Reiche derweil eine Absage erteilt: Für eine Reaktivierung abgeschalteter Kernkraftwerke würde kein Unternehmen das Risiko tragen wollen. Dennoch sei es wichtig, bei Fusionskraftwerken und den sogenannten Small Modular Reactors (SMR) bei Forschung und Standardsetzung mitreden zu können und zugleich nderen EU-Staaten keine Hürden in den Weg zu legen.


(vbr)



Source link

Weiterlesen

Künstliche Intelligenz

Mehr Präzision bei DNA-Manipulation: KI half bei der Entwicklung


Forscher vom Institut für Genetik und Entwicklungsbiologie der Chinesischen Akademie der Wissenschaften melden einen Durchbruch bei der präzisen Manipulation von großen DNA-Abschnitten. Ihre Methode eigne sich für Tausende bis Millionen Basenpaare und erlaube das Editieren von Erbgut bei Pflanzen und Tieren gleichermaßen. Sein Forschungsergebnis veröffentlichte das Team um Gao Ciaxia online im Fachjournal Cell.

Grundlage der Forschung ist das Rekombinations-System Cre-Lox, das die gezielte Manipulation von DNA erlaubt. Dabei markieren zwei Abschnitte von Basenpaaren, die sogenannten LoxP-Stellen, den zu verändernden DNA-Abschnitt. Die als Cre bezeichnete Rekombinase ist ein Enzym, das an den LoxP-Stellen andockt und den gewünschten Abschnitt beispielsweise heraustrennt oder umkehrt.

Diese laut den Forschern vielversprechende Methode habe mehrere Probleme, die die neuen Verfahren lösen sollen. Ein großes Problem der Methode seien etwa die sogenannten reversiblen Rekombinationsreaktionen als unerwünschte Effekte. Die sorgen dafür, dass die vorgenommenen Manipulationen am Genom wieder rückgängig und damit zunichtegemacht werden. Mit ihrem Verfahren hätten sie die Ausprägung dieses Phänomens um den Faktor zehn senken können. Zudem hätten sie eine Methode entwickelt, um nahtlose Genomveränderungen zu gewährleisten. Die herkömmliche Manipulation mit dem zugrundeliegenden Verfahren sei dagegen mit einer Art Narbenbildung in der DNA verbunden.

Für ihre Forschung entwickelte das Team neue Rekombinasen mithilfe Künstlicher Intelligenz. Die so erschaffenen Enzyme hätten eine 3,5-fach höher Rekombinationseffizienz, als der ursprüngliche Wildtyp des Enzyms gezeigt. Die KI-gestützte Methode zur Konstruktion von Proteinen (Enzyme sind meist Proteine) haben Forscher desselben Instituts um Gao Ciaxia erst einen Monat zuvor im Fachjournal Cell veröffentlicht. Dabei würden KI-Modelle auf Grundlage von dreidimensionalen Proteinstrukturen gezielt kompatible Aminosäuresequenzen generieren, wobei sie bestimmte strukturelle Grenzen als Einschränkung beachten. Aminosäuren sind die Bausteine von Proteinen. So helfe KI beim effizienten Protein-Engineering.

Um ihr Forschungsergebnis in einer konkreten Anwendung zu untermauern, setzten die Forscher es ein, um herbizidresistenten Reis zu erzeugen. Dazu drehten sie mit ihrem Verfahren einen 315 Kilobasen großen Abschnitt in dessen DNA um.


(dgi)



Source link

Weiterlesen

Künstliche Intelligenz

VeloFlow: Berlin testet Fahrrad-Ampel mit Erreichbarkeitsprognose


Dieses System soll Frust an Ampeln bei Radfahrern in Berlin sowie potenzielle Rotlichtverstöße reduzieren: Die Senatsverkehrsverwaltung der Hauptstadt hat angekündigt, eine VeloFlow getaufte Lösung an zunächst 23 Signallichtanlagen von September an testen zu wollen. Es handelt sich um digitale Anzeigen etwa unter Parkverbotsschildern, die Radfahrer rund 200 Meter vor einer Kreuzung darüber informieren, ob sie die nächste Ampel bei einer Geschwindigkeit von etwa 20 Kilometer in der Stunde bei Grün oder Rot erreichen werden.

Die Funktionsweise von VeloFlow ist laut dem Senat relativ einfach: Ein Fahrrad-Symbol auf dem Display signalisiert, ob die Ampelphase bei gleichbleibendem Tempo Grün oder Rot sein wird. Befindet sich das stilisierte Rad im grünen Bereich, können vorbeikommende Radler davon ausgehen, dass sie die Ampel bei freier Fahrt passieren können. Zeigt das Symbol den roten Bereich, deutet dies auf eine bevorstehende Rotphase hin. Das soll es Velofahrern ermöglichen, ihr Tempo vorausschauend anzupassen – entweder durch eine leichte Beschleunigung oder durch langsames Ausrollen. Abruptes Bremsen oder ein Passieren der Ampel bei Rot soll so leichter vermeidbar werden.

VeloFlow basiert den offiziellen Angaben zufolge auf dem Assistenzsystem Green Light Optimal Speed Advisory (Glosa). Dieses benötigt in Echtzeit Informationen über die Ampelphasen. Sogenannte Roadside Units (RSUs) direkt an den Lichtsignalanlagen erfassen dafür die aktuellen einschlägigen Daten und erstellen Prognosen für die nächsten Schaltvorgänge. Diese Informationen können über verschiedene Wege drahtlos etwa an Displays, Fahrzeuge oder Endgeräte der Nutzer gesendet werden. In Berlin soll auf dieser Basis der Glosa-Verzögerungsassistent zum Einsatz kommen. Ähnliche Anzeigen tun bereits in Münster ihre Dienste.

Möglich wäre mithilfe der Technik auch die Implementierung eines „Grüne Welle“-Assistenten, wie er etwa in Marburg für App-Nutzer schon seit Jahren verfügbar ist. Davon ist in der Hauptstadt aber aktuell keine Rede. Der Senat bezeichnet die RSUs aber als „strategisch wichtige Schnittstellen“ für die künftige digitale Verkehrsinfrastruktur. Sie könnten mit intelligenten Fahrzeugen kommunizieren, um Ampelphasen, Verkehrsbedingungen und Gefahren zu übermitteln. Das bilde den Grundstein für kooperative und autonom fahrende Systeme. Verkehrsfluss, Sicherheit und Effizienz würden weiter optimiert.

In der Invalidenstraße in Mitte werden dem Plan nach zehn VeloFlow-Anzeigen installiert, im Bereich Stargarder Straße, Schönhauser und Prenzlauer Allee neun. Je zwei sind in der Handjery- und Prinzregentenstraße sowie der Langenscheidt- und Kreuzbergstraße vorgesehen. Ein Display schlage mit knapp 3000 Euro zu Buche, erklärte die Verkehrsverwaltung dem rbb. Dazu kämen Kosten für die Stromversorgung, die Digitalisierung der Ampelanlagen sowie weitere Planungen. 85 Prozent der Ausgaben übernehme das Bundesverkehrsministerium.


(vbr)



Source link

Weiterlesen

Beliebt