Connect with us

Künstliche Intelligenz

GPT-5 im Agenten-Test | heise online


Die großen Leistungssprünge bei den großen Sprachmodellen (Large Language Models, LLMs) sind vorerst vorbei. Stattdessen verschiebt sich der Fokus vom bloßen Hochskalieren der Modelle hin zu Optimierung und Produktintegration. Sprachmodelle werden nicht mehr nur als statische Wissensspeicher verstanden, sondern entwickeln sich zu aktiven Agenten, bei der Sprachmodelle als Orchestratoren komplexe Aufgaben in Teilschritten lösen. Die LLMs sprechen gezielt Schnittstellen an, rufen Daten aus externen Quellen ab, rechnen und integrieren die Ergebnisse in ihren Antworten. Dieser Artikel stellt die Fähigkeiten von GPT-5 im Vergleich zu den bisherigen Spitzenreitern im speziell auf agentische Fähigkeiten ausgelegten tau2-Benchmark auf die Probe.

  • Der GPT-5-Release zeigt: Große Leistungssprünge weichen Optimierung und Produktintegration. GPT-5 fokussiert präzisen Tool-Use und höhere Steuerbarkeit für agentische Anwendungen.
  • Bisher galt Anthropics Sonnet 4 als bestes Modell für agentische KI-Workflows: Das saubere Einhalten von Anweisungen und eine niedrige Fehlerquote überzeugten trotz hoher Kosten.
  • Mit Kimi K2 und GPT-5 reichen zwei neue Modelle in Anbieter-Benchmarks an Sonnet 4 heran. Mit einem selbst durchgeführten Benchmark überprüft iX die Angaben.
  • Im tau2-Benchmarkt überholt GPT‑5 Sonnet 4, doch Opus 4.1 bleibt mit höchster Genauigkeit Spitzenreiter – bei den höchsten Kosten. Reasoning steigert die Erfolgsquote, erhöht aber die Kosten und die Laufzeit.

Denn bisher haben Modelle wie Anthopics Claude Sonnet 4 die Nase vorn: weniger aufgrund einer höheren Intelligenz, sondern durch präzises Einhalten von Funktionssignaturen und einer niedrigen Fehlerquote im Tool Use und der Codegenerierung. Das verschafft ihnen im Unternehmen einen klaren Vorteil, insbesondere bei der Softwareentwicklung, wo das Code-Generieren und der Einsatz von Werkzeugen in LLM-basierten Entwicklungsumgebungen Hand in Hand gehen.


Die Ergebnisse des tau2-Benchmarks (Retail) machen deutlich, dass zusätzliche Reasoning-Fähigkeiten zu einer höheren Genauigkeit führen. Insgesamt zeigt sich: GPT-5 hat Sonnet 4.1 im Agenten-Check überholt, doch Claude Opus bleibt weiterhin an der Spitze – im Reasoning-Modus mit Abstand (Abb. 3).,

Die Ergebnisse des tau2-Benchmarks (Retail) machen deutlich, dass zusätzliche Reasoning-Fähigkeiten zu einer höheren Genauigkeit führen. Insgesamt zeigt sich: GPT-5 hat Sonnet 4.1 im Agenten-Check überholt, doch Claude Opus bleibt weiterhin an der Spitze – im Reasoning-Modus mit Abstand (Abb. 3).,

Die Ergebnisse des tau2-Benchmarks (Retail) von iX machen deutlich, dass zusätzliche Reasoning-Fähigkeiten zu einer höheren Genauigkeit führen. Insgesamt zeigt sich: GPT-5 hat Sonnet 4 im Agenten-Check überholt, doch Claude Opus bleibt weiterhin an der Spitze – im Reasoning-Modus mit Abstand.

(Bild: Danny Gerst)

Ein Bericht der Venture-Capital-Gesellschaft Menlo Ventures vom Juli 2025 stützt diese Beobachtung. Demzufolge nutzen in Unternehmen 32 Prozent der API-Nutzer Modelle von Anthropic, nur 25 Prozent auf von OpenAI. Bei OpenRouter – der Anbieter ermöglicht den Zugriff auf verschiedene Sprachmodelle über eine einheitliche Schnittstelle – fällt das Bild noch deutlicher aus: Dort ist Sonnet mit großem Abstand das meistgenutzte Modell, während OpenAI in den Top Ten überhaupt nicht vertreten ist.


Das war die Leseprobe unseres heise-Plus-Artikels „GPT-5 im Agenten-Test“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Künstliche Intelligenz

Montag: Lithium & Co. im Abraum von Minen, Android-Apps in Windows 11 fortsetzen


Die Vereinigten Staaten beherbergen dutzende Minen. Einige fördern einfaches Kupfer oder Eisen. Doch im Abraum stecken oft wichtige Rohstoffe, die man nutzen kann. Laut einer Studie sind das sogar erhebliche Mengen. Insbesondere Lithium für Batterien soll für Millionen von Elektroautos in den Gesteinsschichten zu finden sein. Microsoft hat hingegen einen Weg gefunden, Android-Apps auf PCs mit Windows 11 fortsetzen zu können. Diese Funktion wird erstmals von der aktuellen Preview-Version für Windows-Insider angeboten, ist zunächst aber auf Spotify beschränkt. Damit lassen sich Musik und Podcasts am PC zu Ende hören. Derweil kauft der Firmengründer von Medion einen Großteil des Unternehmens von Lenovo zurück, bereits kurz nachdem der chinesische Konzern den Essener Elektronikhändler komplett übernommen hat. Allerdings behält Lenovo die PC-Sparte und wird Notebooks und PCs weiterhin unter der Marke Medion herstellen – die wichtigsten Meldungen im kurzen Überblick.

Ein Team von Bergbauingenieuren hat bei einer Studie herausgefunden, dass in den 54 derzeit aktiven Minen in den USA das Potenzial für die Rückgewinnung von über 70 kritischen Rohstoffen sehr hoch ist. So steckt etwa genug Lithium in einem Jahr US-Minenabfällen, um Batterien für etwa 10 Millionen Elektrofahrzeuge herzustellen. Auch Mangan ließe sich in relevanter Menge aus dem Abraum extrahieren. Kritische Rohstoffe sind entscheidend für die Produktion von Lithium-Ionen-Batterien, Solarpanels und anderen Technologien mit niedrigem oder null Kohlenstoffausstoß, die den Übergang zu sauberer Energie vorantreiben. Das passt zur aktuellen politischen Agenda in den USA, die inländische Versorgung mit seltenen oder kritischen Rohstoffen sicherzustellen: Abraum aus US-Minen enthält laut Studie über 70 kritische Rohstoffe wie Lithium.

Microsoft testet eine neue Funktion für Windows 11, mit der Android-Apps fast übergangslos auf dem PC fortgesetzt werden können. Sind Android-Smartphone und Windows-11-System bereits verknüpft, kann der Nutzer damit seine Handy-Tätigkeit am PC weiterführen, etwa das Abspielen von Musik oder eines Podcasts. Dementsprechend ist das zunächst mit Spotify möglich, aber Microsoft lädt App-Entwickler ein, diese „Cross Device Resume“ genannte Funktion auch in ihre Software zu integrieren. Wenn Nutzer Spotify auf ihrem Smartphone verwenden, kann Windows 11 künftig ein kleines App-Icon der Anwendung in der Taskbar einblenden, um die Musikwiedergabe am PC fortzusetzen. Derzeit ist das noch Windows-Entwicklern und -Testern vorbehalten: Microsoft erlaubt bald das Fortsetzen von Android-Apps auf Windows 11.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier eine externe Umfrage (Opinary GmbH) geladen.

Die Medion GmbH ist erst seit Anfang des Jahres vollständig im Besitz von Lenovo, das aber schon seit 2011 die Mehrheit an dem deutschen Elektronikhändler hielt. Jetzt hat sich der Konzern von einem Großteil der Beteiligung wieder getrennt. Lenovo behält nur noch die PC-Sparte und wird weiter unter den Markennamen Medion und Erazer Notebooks und PCs produzieren. Alles andere, also Haushaltselektronik, TV-Geräte, Wearables und auch der Aldi-Talk-Vertrieb, gehört jetzt zu einer neu gegründeten Medion GmbH. Die soll sich auch um Vertrieb und Marketing der Medion- und Erazer-PCs kümmern, Lenovo agiert nur als OEM-Lieferant. Eigentümer der GmbH ist Gerd Brachmann, der 1983 das Unternehmen gemeinsam mit einem Geschäftspartner gründete und 1999 an die Börse brachte: Medion geht zum Großteil an Gründer zurück.

Für mindestens zehn Milliarden Dollar will Meta in den nächsten sechs Jahren Cloud-Services bei Google einkaufen. Der Deal ist die erste formelle Übereinkunft zwischen den beiden konkurrierenden Internet-Riesen beim Cloud-Computing und zeigt, dass es Meta im KI-Rennen vor allem um Geschwindigkeit geht. Meta betreibt schon rund zwei Dutzend Rechenzentren selbst und lässt weitere bauen, unter anderem eines mit einem Stromverbrauch von zwei Gigawatt und einer Fläche, die halb so groß ist wie Manhattan. Doch bis das fertig ist, könnte es Mark Zuckerberg offenbar schon zu spät sein. Denn er hat sich das Ziel gesetzt, das Unternehmen zu sein, das jedem seiner KI-Experten die größte Rechenleistung zur Verfügung stellt: Meta kauft für 10 Milliarden bei Google ein.

Milliarden hat Meta auch in die vollwertige Augmented-Reality-Brille gesteckt, von der der Konzern nach knapp zehn Jahren Forschung und Entwicklung letztes Jahr den ersten Produktprototyp präsentierte. Das Orion genannte Wearable wiegt 98 Gramm und kombiniert erstmals ein weites Sichtfeld von rund 70 Grad mit einem Formfaktor, der annähernd dem einer herkömmlichen Brille entspricht. Warum die Entwicklung einer alltagstauglichen AR-Brille so komplex ist, zeigt sich an kaum einem Gerät so deutlich wie an Orion. Wir werfen einen Blick auf einige der faszinierendsten Aspekte von Orion, auf Metas Pläne mit dem Prototyp und darauf, was nach Orion kommen könnte, bei Missing Link: Metas große AR-Wette – was die AR-Brille Orion einzigartig macht.

Auch noch wichtig:

  • Viele moderne Smartphones und auch andere mobile Gadgets sind laut IP-Rating gegen das Eindringen von Wasser geschützt. Doch das hilft nicht dauerhaft, sagt Google: IP68 schützt nicht dauerhaft vor Wasser und Staub.
  • Der Notiz- und Wissensmanager Obsidian ist in Version 1.9 erschienen. Neu ist eine Datenbankfunktion, um Inhalte zusammenzufassen, auszuwerten und zu filtern: Obsidian jetzt mit Datenbank-Funktion.
  • In der vergangenen Woche gab es Berichte über SSD-Ausfälle durch das letzte Windows-Update. SSDs mit Silicon-Motion-Controllern sollen nicht betroffen sein: Silicon Motion nicht betroffen von SSD-Ausfällen durch Windows-Update.
  • Die US-Autosicherheitsbehörde beklagt, Tesla habe sie wiederholt viel zu spät über Crashs mit selbstfahrenden Autos informiert: Unfallberichte zu autonomem Fahren Teslas unter der Lupe.
  • Intel wird ein teilstaatlicher Konzern. 9,9 Prozent der Aktien gehen an die USA, dafür darf Intel-Chef Tan seinen Job behalten. Es ist praktisch Trump inside: Intel teilverstaatlicht.
  • Systeme mit KI entwerfen, als Werkzeug oder als Teil des Systems – das bringt neue Herausforderungen für Softwarearchitekten, die ihr Berufsbild ändern werden. Wir zeigen KI als Katalysator für Softwarearchitektur an einem Praxisbeispiel aus dem ÖPNV.
  • Vor dreißig Jahren hatte Microsoft starke Konkurrenz und reagierte mit Werbung. Doch auch technisch war Windows 95 besser als sein heutiger Ruf: Warum Microsoft mit Windows 95 den modernen PC definierte.
  • Eine umfassende Befragung von IT-Sicherheitsexperten zeigt: Interne Bedrohungen gelten inzwischen als größte Security-Herausforderung. KI spielt zentrale Rolle, so die Studie: Insider-Bedrohungen durch KI sind gefährlicher als externe Cyberangriffe.
  • Die Bundesregierung räumt ein, dass Deutschland etwa bei Cloud-Infrastruktur, Betriebssystemen und Netzwerktechnik nicht digital souverän ist und nachbessern muss: Deutschland ist laut Bundesregierung in Technologiebereichen von US-Firmen abhängig.
  • Wie gut sich macOS, Chrome OS und Linux als Windows-Alternativen eignen und für wen welches System infrage kommt, darüber diskutieren wir im c’t uplink zum Windows-10-Ende: taugen macOS, Chrome OS und Linux als Alternative?


(fds)



Source link

Weiterlesen

Künstliche Intelligenz

Microsoft erlaubt bald das Fortsetzen von Android-Apps auf Windows 11


Microsoft testet eine neue Funktion für Windows 11, mit der Android-Apps fast übergangslos auf dem PC fortgesetzt werden können. Sind Android-Smartphone und Windows-11-System bereits verknüpft, kann der Nutzer damit seine Tätigkeit am Handy am PC weiterführen, etwa das Abspielen von Musik oder eines Podcasts. Dementsprechend ist das zunächst mit Spotify möglich, aber Microsoft lädt App-Entwickler ein, diese „Cross Device Resume“ genannte Funktion auch in ihre Software zu integrieren.

Microsoft hat diese macOS-ähnliche „Handoff“-Funktion für Windows 11 bereits im Mai dieses Jahres auf der Build-Konferenz demonstriert, diesen Teil der Präsentation aber kurzfristig aus dem entsprechenden YouTube-Video herausgeschnitten. Als Beispiel diente damals ebenfalls Spotify. Wenn Nutzer die App auf ihrem Smartphone verwenden, kann Windows 11 künftig ein kleines App-Icon der entsprechenden Anwendung in der Taskbar einblenden. Wenn Nutzer auf das App-Symbol klicken, wird die Spotify-App auf Windows geöffnet und die Musikwiedergabe wird an der gleichen Stelle fortgesetzt, an der man auf dem Smartphone aufgehört hat.

Im Mai war diese Funktion aber offenbar bis jetzt nicht bereit für die Öffentlichkeit, sodass dieser Teil der Session aus dem YouTube-Video entfernt wurde. Doch nun beschreibt Microsoft „Cross Device Resume“ zur Einführung des „Windows 11 Insider Preview Build“ 26200.5761 im Entwicklerkanal genauer. Teilnehmer dieses Programms und mit dieser Windows-Version können die Funktion anhand von Spotify jetzt testen. Dabei erscheint die Benachrichtigung zum Fortsetzen von Spotify auf dem PC sogar, wenn Spotify gar nicht unter Windows 11 installiert ist. Dann lässt sich Spotify mit einem Klick aus dem Microsoft-Store herunterladen und installieren.


Spotifys Resume-Benachrichtigungen unter Windows 11

Spotifys Resume-Benachrichtigungen unter Windows 11

Spotify-Benachrichtigungen zur Fortsetzung des Streamings auf Windows 11

(Bild: Microsofts Windows Insider Blog)

Es gibt allerdings einige Voraussetzungen für die Nutzung dieser Funktion. Zunächst müssen Anwender mit demselben Konto bei Spotify sowohl auf dem Smartphone als auch unter Windows 11 eingeloggt sein, um Streams auf dem PC fortsetzen zu können. Zudem müssen PC und Android-Handy miteinander verknüpft sein. Unter Windows 11 ist das in den Bluetooth-Einstellungen möglich, auf dem Smartphone muss die App „Link zu Windows“ installiert sein und im Hintergrund laufen.

Die nahtlose App-Weitergabefunktion hat Apple bereits vor Jahren mit „Handoff“ für macOS und iOS eingeführt, aber die Idee ist auch unter Windows nicht neu: Microsoft hatte ein ähnliches Feature schon 2016 auf Windows 10 getestet. Die Funktion wurde damals unter dem Codenamen „Project Rome“ entwickelt und sollte es Entwicklern ermöglichen, Apps zu schreiben, die „auf mehreren Geräten ausgeführt werden können und den Benutzer beim Wechsel zwischen den Geräten begleiten“.

Microsoft arbeitet seit Jahren daran, Windows und Smartphones enger miteinander zu verzahnen. Im Mai 2025 hatte der Konzern neben einem neuen Startmenü und vielen KI-Funktionen für Windows 11 auch angekündigt, einen Zugang zu Android- und iOS-Geräten direkt vom Startmenü aus zu ermöglichen. Diese Funktion will Microsoft jedoch erst später in Europa verfügbar machen.


(fds)



Source link

Weiterlesen

Künstliche Intelligenz

Stromverbrauch: KI-Anfrage nutzt so viel wie neun Sekunden Fernsehen


Eine Text-Anfrage bei Googles KI-Software Gemini verbraucht nach Berechnungen des Internet-Konzerns im Schnitt so viel Strom wie knapp neun Sekunden Fernsehen. Die konkrete Energiemenge bezifferte Google auf 0,24 Wattstunden. Dabei würden auch rund fünf Tropfen Wasser verbraucht (0,26 Milliliter). Wasser wird zur Kühlung der Rechenzentren benötigt.

Seit Jahren gibt es Warnungen von einem eskalierenden Strombedarf und Wasserverbrauch bei einer breiteren Nutzung von Anwendungen mit Künstlicher Intelligenz. Die Industrie versucht, die Bedenken zu zerstreuen – und verweist unter anderem darauf, dass Rechenzentren immer effizienter würden.

Vom ChatGPT-Erfinder OpenAI hieß es, eine durchschnittliche KI-Anfrage verbrauche bei 0,34 Wattstunden so viel Strom wie gut eine Sekunde Backofen-Betrieb.

Allerdings: Auch wenn einzelne Nachfragen dank Effizienz-Gewinnen bei der Chip- und Servertechnik tatsächlich immer weniger Energie benötigen dürften, sorgt die Masse der Nutzung immer noch für einen sprunghaften Anstieg des Strombedarfs für KI-Rechenzentren. Auch lassen die Angaben beider Unternehmen das vorherige Training von KI-Modellen mit gewaltigen Datenmengen aus, das viel Strom verschlingt.


(dmk)



Source link

Weiterlesen

Beliebt