Connect with us

Künstliche Intelligenz

Xbench: Chinesischer KI-Benchmark prüft Modelle auf Alltagstauglichkeit


Beim Testen eines KI-Modells ist es schwer zu sagen, ob es tatsächlich selbstständig Schlussfolgerungen ziehen kann oder nur Antworten aus seinen Trainingsdaten wiedergibt. Xbench, ein neues Benchmarksystem, das von der chinesischen Risikokapitalfirma HSG (steht für HongShan Capital Group) entwickelt wurde, könnte dabei helfen, dieses Problem zu lösen. Das liegt daran, dass die Modelle von der Software nicht nur anhand ihrer Fähigkeit bewertet werden, willkürliche Tests zu bestehen, wie dies bei den meisten anderen Benchmarks der Fall ist. Stattdessen werden auch ihre Fähigkeiten, reale Aufgaben auszuführen, überprüft – was bis dato eher ungewöhnlich ist. Xbench wird zudem regelmäßig aktualisiert, um ihn auf dem neuesten Stand zu halten, was dabei hilft, zu vermeiden, dass KI-Firmen sich einfach an ihn anpassen und somit schummeln.

Ein Teil des in dem neuen Benchmark enthaltenen Fragenkatalogs wurde jetzt quelloffen zur Verfügung gestellt, sodass jeder das vorhandene System kostenlos nutzen kann. Das Team hat außerdem eine Rangliste veröffentlicht, in der die gängigen KI-Modelle im Vergleich zueinander bewertet werden, wenn sie mit Xbench überprüft werden. ChatGPT o3 belegte in allen Kategorien den ersten Platz, aber auch Doubao von ByteDance, Gemini 2.5 Pro und Grok von X.ai schnitten recht gut ab – ebenso wie Claude Sonnet von Anthropic.

Die Entwicklung des Benchmarks von HSG begann bereits 2022 nach dem Durchbruch von ChatGPT. Damals war es noch als internes Werkzeug zur Bewertung neuer Modelle gedacht, um herauszufinden, ob sich Investitionen lohnen. Seitdem hat das Team unter der Leitung von Gong Yuan das System stetig erweitert und externe Forschende und Fachleute hinzugezogen, um es zu verfeinern. Als das Projekt immer komplexer wurde, beschlossen sie, es der Öffentlichkeit zugänglich zu machen.

Xbench geht das Problem, die Leistungsfähigkeit neuer Modelle zu ermitteln, mit zwei verschiedenen Ansätzen an. Der erste ähnelt dem traditionellen Benchmarking: ein akademischer Test, der die Eignung eines Modells für verschiedene Themen misst. Der zweite ähnelt eher einem Vorstellungsgespräch für eine technische Stellung. Dabei wird bewertet, welchen wirtschaftlichen Nutzen ein Modell in der Praxis liefern könnte.

Die Methoden von Xbench zur Bewertung der rohen Intelligenz umfassen derzeit zwei Komponenten: Xbench-ScienceQA und Xbench-DeepResearch. ScienceQA unterscheidet sich nicht grundlegend von bestehenden Prüfungen für Postgraduierte im MINT-Bereich wie GPQA und SuperGPQA. Es umfasst Fragen aus verschiedenen wissenschaftlichen Bereichen – von Biochemie bis Orbitalmechanik –, die von Doktoranden verfasst und von Professoren doppelt überprüft wurden. Bewertet werden nicht nur die richtigen Antworten, sondern auch die Lösungswege, die zu ihnen führen.

Xbench DeepResearch hingegen konzentriert sich auf die Fähigkeit eines Modells, sich im chinesischsprachigen Internet zurechtzufinden. Zehn Fachexperten haben 100 Fragen zu den Themen Musik, Geschichte, Finanzen und Literatur erstellt – Fragen, die nicht einfach ergoogelt werden können, sondern umfangreiche Recherchen erfordern.

Bei der Bewertung werden die Breite der verwendeten Quellen, die faktische Konsistenz der Antworten und die Bereitschaft eines Modells, zuzugeben, wenn nicht genügend Daten vorhanden sind, positiv bewertet. Eine Frage aus der von HSG veröffentlichten Sammlung lautet etwa: „Wie viele chinesische Städte in den drei nordwestlichen Provinzen grenzen an ein anderes Land?“ (Die Antwort lautet 12, und nur 33 Prozent der getesteten Modelle antworteten richtig.)

Auf der Website von HSG gaben die Forschenden an, dass sie ihren Benchmark um weitere Dimensionen erweitern möchten, beispielsweise um Aspekte wie die Kreativität eines Modells bei der Problemlösung, seine Kooperationsfähigkeit bei der Zusammenarbeit mit anderen Modellen (falls das technisch inkludiert ist) und seine Zuverlässigkeit. Das Team hat sich dabei verpflichtet, die Testfragen einmal pro Quartal zu aktualisieren und einen halb öffentlichen, halb privaten Datensatz zu pflegen. Damit sollte es Modellanbietern nicht möglich sein, ihr System auf Xbench zu trainieren.

Um die Praxistauglichkeit und den wirtschaftlichen Wert eines Modells zu bewerten, hat das Team in Zusammenarbeit mit externen Experten weiterhin Aufgaben entwickelt, die auf tatsächlichen Arbeitsabläufen basieren. Zunächst betrifft dies die Bereiche Personalbeschaffung und Marketing, später sollen weitere hinzukommen.

Bei einer der Aufgaben soll ein Modell beispielsweise fünf qualifizierte Kandidaten für eine Stelle als Ingenieur in einem Batteriewerk finden und die Auswahl ausführlich begründen. In einer anderen Aufgabe soll es wiederum Werbekunden mit geeigneten Kurzvideo-Erstellern aus einem Pool von über 800 Influencern zusammenbringen.

HSG kündigt für Xbench auch weitere Kategorien an, darunter Finanzen, Recht, Buchhaltung und Design. Die Fragenkataloge für diese Kategorien sind noch nicht öffentlich zugänglich. Bei den bereits bekannten belegte ChatGPT o3 erneut den ersten Platz in beiden Berufskategorien. Bei der Personalbeschaffung im Bereich Batterietechnik belegen Perplexity Search und Claude 3.5 Sonnet den zweiten und dritten Platz.

Im Bereich Marketing schneiden Claude, Grok und Gemini alle gut ab. „Es ist wirklich schwierig, Dinge, die so schwer zu quantifizieren sind, in Benchmarks einzubeziehen“, kommentiert Zihan Zheng vom konkurrierenden Benchmarkprojekt LiveCodeBench Pro mit Forschungserfahrung an der New York University. „Aber Xbench ist ein vielversprechender Anfang.“

Dieser Beitrag ist zuerst bei t3n.de erschienen.


(jle)



Source link

Künstliche Intelligenz

Nach wetterbedingten Problemen: Amazon bringt weitere Kuiper-Satelliten ins All


Nach Wetterkapriolen hat Amazon am Montag erfolgreich seine vierte Serie von Internetsatelliten seines Project Kuiper in eine erdnahe Umlaufbahn gebracht. Eine Falcon 9-Rakete des US-Raumfahrtunternehmens SpaceX brachte 24 weitere Kuiper-Satelliten ins All, nachdem vier frühere Startversuche wegen Wetterproblemen unterbrochen wurden. Nach dieser vierten Mission seines Kuiper-Projekts hat Amazon nun 102 Satelliten in der Umlaufbahn.

Die Falcon 9-Trägerrakete hob am Montagmorgen um 8:35 Uhr Ortszeit (14:35 Uhr MEZ) von der Cape Canaveral Space Force Station im US-Bundesstaat Florida ab. Ungefähr eine Stunde nach dem Start bestätigte SpaceX, dass alle 24 Satelliten von Amazon erfolgreich ausgesetzt wurden, berichtete der US-Nachrichtensender CNBC. Ursprünglich war der Raketenstart demnach bereits für vergangenen Donnerstag geplant, musste aufgrund starker Regenfälle aber mehrmals abgebrochen und verschoben werden.

Amazon steht unter einem gewissen Zeitdruck. Um die Verpflichtungen im Rahmen seiner bereits 2020 erteilten Lizenz der US-Telekommunikationsaufsicht FCC (Federal Communications Commission) zu erfüllen, muss der US-Konzern bis Juli 2026 die Hälfte seiner geplanten 3.236 Internet-Satelliten in Betrieb nehmen. Bis Juli 2029 muss die Konstellation dann komplett sein.

Ursprünglich hatte Amazon seine ersten Internet-Satelliten bereits Ende 2022 ins All bringen wollen. Aber es kam immer wieder zu Verzögerungen. In der zweiten Jahreshälfte 2023 schoss Amazon zwei Erprobungssatelliten ins All, mit denen die Funktionsfähigkeit des Systems getestet wurde. Ende April dieses Jahres brachte Amazon dann die ersten 27 Kuiper-Internetsatelliten erfolgreich in eine niedrige Erdumlaufbahn, Ende Juni folgte eine weitere Serie.

Mit seinem Kuiper-Projekt plant Amazon, über Satelliten schnelles Breitbandinternet für abgelegene Regionen bereitzustellen und so mit dem Starlink-Weltrauminternet von SpaceX des Milliardärs Elon Musk zu konkurrieren. Starlink ist mit rund 8.000 Satelliten und etwa fünf Millionen Kunden weltweit derzeit unangefochtener Weltmarktführer. Vor diesem Hintergrund entbehrt der Umstand, dass Amazon nun zum zweiten Mal eine SpaceX-Rakete verwendet hat, um seine Satelliten ins All zu transportieren, nicht einer gewissen Ironie.


(akn)



Source link

Weiterlesen

Künstliche Intelligenz

Milliardendeal: Rumble erwägt Übernahme von deutscher Northern Data


Der US-Videodienst Rumble erwägt ein Übernahmeangebot für das deutsche KI-Cloud-Unternehmen Northern Data im Wert von 1,17 Milliarden US-Dollar (rund eine Milliarde Euro). Das gaben beide Konzerne am Montag bekannt. Die Northern Data AG mit Sitz in Frankfurt am Main, sei von Rumble darüber informiert worden, „dass Rumble an einem potenziellen Umtauschangebot für 100 % der ausstehenden Aktien der Northern Data AG interessiert ist“, so das deutsche Unternehmen, das globale Infrastrukturlösungen im Bereich High-Performance Computing (HPC) entwickelt, in einer Pressemitteilung.

Demnach wolle Rumble, das u. a. die Social-Media-Plattform Truth Social des gegenwärtigen US-Präsidenten Donald Trump beherbergt, 2.319 eigene Aktien für jeden Anteilsschein von Northern Data bieten. Das vorgeschlagene Angebot bewertet Northern Data nach Berechnungen der Nachrichtenagentur Reuters mit etwa 18,30 US-Dollar pro Aktie. Damit liegt der vorläufige Kaufpreis deutlich unter dem Börsenwert von Northern Data. Die Aktie stürzte am Montag an der Frankfurter Börse um mehr als 20 Prozent ab.

Aufsichtsrat und Vorstand von Northern Data zeigten sich nach eigenen Angaben offen für weitere Gespräche; das Unternehmen geht jedoch davon aus, dass ein finales Übernahmeangebot zu einer höheren Bewertung führen werde. Wie das Handelsblatt schreibt, hat Tether, Mehrheitsaktionär von Northern Data und Betreiber des gleichnamigen Stablecoins, die Transaktion bereits befürwortet. Tether hält laut Rumble 54 Prozent an Northern Data. Bei Rumble wiederum ist Tether laut Reuters im Dezember mit 775 Millionen US-Dollar eingestiegen und hält derzeit 48 Prozent der Anteile. Durch das Tauschangebot im Rahmen der Northern Data-Übernahme käme Tether voraussichtlich auf eine Mehrheitsbeteiligung bei Rumble; die Mehrheit der Stimmrechte aber würde weiterhin bei Rumble-CEO Chris Pavlovski liegen.

Mit der Übernahme würde Rumble, zu dessen Investoren der Tech-Milliardär Peter Thiel und Narya, eine von JD Vance, dem aktuellen US-Vizepräsidenten, mitgegründete Investmentfirma, die Kontrolle über Northern Datas Cloud-Geschäft Taiga und die Rechenzentrumssparte Ardent erlangen. Northern Data verfügt nach Angaben von Reuters über einen beträchtlichen Bestand an Nvidia-Grafikprozessor-Chips (GPUs), darunter rund 20.480 des Typs H100 und über 2000 H200-Chips.

Vor einer Übernahme soll sich Northern Data jedoch von seinem Krypto-Mining-Geschäft trennen. „Rumbles Potenzielles Umtauschangebot geht davon aus, dass Northern Datas Peak Mining Geschäftsbereich noch vor Abschluss des Potenziellen Umtauschangebots veräußert wird“, heißt es in der Northern Data-Mitteilung. Laut Handelsblatt gibt es dazu bereits eine unverbindliche Einigung. Demnach soll Northern Datas Krypto-Mining-Sparte für 175 bis 235 Millionen US-Dollar an den Bitcoin-Schürfer Elektron Energy gehen. Der Erlös soll verwendet werden, um einen Teil eines bestehenden Darlehens von Tether an Northern Data zurückzuzahlen. Tether hat Northern Data vor fast zwei Jahren 575 Millionen Euro geliehen, um sein eigenes Geschäft auszuweiten.

Die Kryptowährungsplattform Tether betreibt den weltweit größten Stablecoin. Anfang des Jahres verlegte das Unternehmen seinen Sitz nach El Salvador. Zuvor war das Unternehmen auf den Britischen Jungferninseln registriert.


(akn)



Source link

Weiterlesen

Künstliche Intelligenz

Solar-Förderung: Ministerin Reiche sorgt für Aufruhr


Noch sind die Ankündigungen unscharf, mit denen Bundesministerin für Wirtschaft und Energie Katherina Reiche (CDU) die Debatte vorantreibt. Doch nachdem sie am Wochenende in einem Interview mit der Augsburger Allgemeinen nicht nur weniger Subventionen und mehr Netzdienlichkeit von Solaranlagen-Betreibern gefordert hatte, stoßen die Äußerungen der Ministerin nun auf scharfe Kritik von unterschiedlichen Akteuren der Energiewende.

Will Reiche die Förderung von Solaranlagen ganz abschaffen oder nur etwas reformieren? Eine komplette Streichung der Erneuerbaren-Förderung sei nicht geplant, so eine Sprecherin des Bundeswirtschaftsministeriums am Mittag in Berlin. Es gehe um die Kosten des Gesamtsystems.

Klar ist: Die Ministerin hat mitten im Sommerloch ein Anliegen platziert, das auch viele private Hausbesitzer betrifft. Denn angesichts steigender Energiekosten und sinkender Preise für Photovoltaik-Anlagen ist derzeit die Verlockung groß, selbst auf das Dach zu klettern oder einen Monteur zu beauftragen. Doch wenn die politischen Rahmenbedingungen sich ändern würden, warnt der Bundesverband Solarwirtschaft (BSW), könne das den Markt und die Energiewende abwürgen.

Reiche bringt zudem ins Spiel, Betreiber kleiner Solaranlagen zu Speicherung und Steuerung zu verpflichten: „Bei kleinen PV-Anlagen ist es so, dass die Vielzahl von nicht steuerbaren, kleinen Solaranlagen unkontrolliert einspeist und das Netz unter Stress setzt“, sagte Reiche der Augsburger Allgemeinen. „Deshalb sollten PV-Anlagen mit Stromspeichern verbunden und steuerbar sein, am Markt teilnehmen und ihren Strom vermarkten.“

Der BSW hält dem entgegen, dass bei neuen Solaranlagen immer häufiger eine „Kombination von Solaranlagen mit Batteriespeichern, Elektroautos, Klimaanlagen oder Wärmepumpen“ genutzt werde. Gerade das gewährleiste eine effiziente Nutzung der Netzinfrastruktur, so der Interessenverband.

Wo genau sie die Problemlage verortet, verriet die Ministerin und ehemalige Energiewirtschaftsmanagerin nicht. Relevant sind kleine Solaranlagen in Balkonkraftwerksdimension für Netzstabilität und Steuerbarkeit kaum: Die 1,17 Millionen im Marktstammdatenregister angemeldeten Solaranlagen unter 2kW Spitzenleistung schaffen zusammen maximal ein gutes Gigawatt Bruttoleistung. Deutlich relevanter sind da schon die gut 3,1 Millionen Anlagen zwischen 3 und 15 Kilowatt Spitzenleistung – ein Großteil davon Aufdachanlagen, die in der seltenen Spitze über 28 Gigawatt eigentlich billigen Strom produzieren können.

Allerdings ist nur ein kleiner Teil davon altersbedingt aus der Förderung herausgefallen – und 19 Gigawatt sind erst nach 2015 ans Netz gegangen, werden in den meisten Fällen also für mindestens zehn weitere Jahre Einspeisevergütungen erhalten. Diese schmelzen zwar stückweise ab, doch enthalten auch die aktuellen Regelungen noch garantierte Vergütungen für die jeweils kommenden 20 Jahre ab Inbetriebnahme.

Wer also im August 2025 seine Solaranlage in Betrieb nimmt, kann bis 2045 unabhängig von den Auswirkungen auf das Stromnetz einspeisen und bekommt dafür die stets gleiche Förderung – teils werden sogar noch höhere Zuschläge dafür bezahlt, Strom nicht einzuspeisen. Am Bestandsschutz für die Einspeisevergütung selbst will auch Reiche offenbar nicht rütteln.

Dass dieses Verhalten nicht sinnvoll ist und die Kosten für alle Beteiligten dadurch in die Höhe schnellen, ist branchenweit und technologieübergreifend Konsens. Deutlich unterschiedlich sind hingegen die Ableitungen aus der Problemanalyse. So hält etwa Philipp Schröder, CEO des kapitalmarktgetriebenen PV-und-Speicher-Anlagen-Installateurs 1Komma5Grad eine Debatte über die Abschaffung der Einspeisevergütung für verfrüht. Es brauche „zuerst eine Systemmodernisierung für mehr Digitalisierung und bessere Prozesse: der flächendeckende Smart-Meter-Rollout“, fordert Schröder.

Auch die Vorsitzende des Bundesverbandes Erneuerbare Energien Simone Peter (Grüne) sprach von einer „falschen Debatten zur falschen Zeit“. Wichtiger sei es, die Flexibilität zu erhöhen. Gerade private Photovoltaikanlagen hätten die Akzeptanz stark erhöht.

Dass die Erneuerbaren-Förderung insgesamt kippt, gilt als unwahrscheinlich. Dass aber Steuerbarkeit, Speicherbarkeit und Netzdienlichkeit eine stärkere Rolle spielen müssen, gilt selbst bei den wirtschaftlichen Profiteuren der Energiewende als unstrittig. Einen Hinweis, was sich schnell ändern könnte, gab Reiche in ihrem Interview mit der Augsburger Allgemeinen: Betreiber hätten Anlagen errichten können, „wo sie wollten, ohne auf das Stromnetz Rücksicht zu nehmen“. Tatsächlich könnte das den Hauptunterschied der künftigen Erneuerbaren-Politik ausmachen. Denn damit würde anstelle des Ausbau der Netze um Erneuerbare anzuschließen nur noch der Ausbau Erneuerbarer bei vorhandener Netzkapazität stehen.

Einem anderen Dauerbrenner hatte die jetzt seit fast exakt 100 Tagen im Amt befindliche CDU-Politikerin Reiche derweil eine Absage erteilt: Für eine Reaktivierung abgeschalteter Kernkraftwerke würde kein Unternehmen das Risiko tragen wollen. Dennoch sei es wichtig, bei Fusionskraftwerken und den sogenannten Small Modular Reactors (SMR) bei Forschung und Standardsetzung mitreden zu können und zugleich nderen EU-Staaten keine Hürden in den Weg zu legen.


(vbr)



Source link

Weiterlesen

Beliebt