Connect with us

Entwicklung & Code

Gemini 2.5 Computer Use – optimiert für die Browsernutzung


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Mit Gemini 2.5 Computer Use stellt Google ein KI-Modell vor, das darauf spezialisiert ist, das Web mittels eines Browsers so zu nutzen, wie es Menschen tun. Dabei stehen dem Modell vor allem visuelle und reasoning-Fähigkeiten aus Gemini 2.5 Pro zur Verfügung. Dank ihnen kann Gemini das menschliche Verhalten besonders gut nachahmen und entsprechend auch besonders gut eine Aufgabe erfüllen.

Wie bereits bei anderen KI-Anbietern kann auch Gemini 2.5 Computer Use Formulare ausfüllen, scrollen und sich durch Webseiten klicken. Freilich sind dafür auch agentische Fähigkeiten nötig. Diese waren bereits zuvor als Gemini API verfügbar. Dabei handelte es sich jedoch um eine nicht spezialisierte Version von Gemini. Das neue Modell soll deutlich besser mit Interfaces umgehen können, schreibt Google in einem Blogbeitrag. Gemini 2.5 Computer Use wird zunächst ebenfalls über die Gemini API in Google AI Studio und Vertex AI zur Verfügung stehen.

Das Modell analysiert zunächst eine Aufgabe und generiert daraufhin eine erste Antwort. Diese entspricht in der Regel einem Funktionsaufruf, der eine Aktion zur Folge hat – etwa Klicken oder Tippen. Um das Interface zu verstehen, wird ein Screenshot gemacht. Möglich ist auch, dass das Modell den Menschen, der die Aufgabe erteilt hat, vor einer Aktion fragt. Das soll den Kauf von 100 Paar Socken in der falschen Größe oder andere gefährliche Situationen vermeiden. Es folgt ein neuer Screenshot und ein neuer Function Call – bis die ursprüngliche Aufgabe erreicht ist.

Gemini 2.5 Computer Use ist für das Browsen im Web optimiert, bei mobilen UIs schneidet das Modell nicht ganz so gut ab. Als Zielgruppe sieht Google vor allem Entwickler, die eigene Software mittels Computer Use testen können. Abwandlungen von dem Modell unterstützen zudem die Funktionen in Google AI Mode, der neu eingeführten KI-Suche, und vom Project Mariner, Googles Version eines KI-Agenten.

Auch Anthropic hat bereits einen Computer-Use-Modus von Claude vorgestellt. Auch hier werden Screenshots genutzt, die das Modell auswertet. OpenAIs KI-Agent Operator und ChatGPT Agent arbeitet ebenfalls mit Bildschirmaufnahmen und agentischen Fähigkeiten, die beispielsweise das Ausfüllen von Formularen ermöglichen.


(emw)



Source link

Entwicklung & Code

Gegen nervige Alltagsaufgaben: Amazon AWS bringt neue KI-Agenten


Auf seiner diesjährigen Hausmesse re:Invent machte AWS unmissverständlich klar, wohin die Reise geht: Agentische KI-Systeme sollen künftig nicht nur einfache Aufgaben erledigen, sondern stunden- oder sogar tagelang autonom arbeiten. Mit den sogenannten Frontier Agents kündigte Amazon eine neue Generation von KI-Agenten an, die ohne ständige menschliche Anleitung persistente Kontexte aufrechterhalten und komplexe Workflows bewältigen sollen.

Weiterlesen nach der Anzeige

Im Mittelpunkt stehen drei spezialisierte Agenten, die den Software-Entwicklungszyklus transformieren sollen. Der Kiro Autonomous Agent fungiert als virtueller Entwickler, der Backlogs abarbeitet, Bugs klassifiziert sowie priorisiert und Aufgaben über mehrere Code-Repositories hinweg eigenständig löst. Dabei lernt er kontinuierlich aus Feedback und Pull-Requests. Der AWS Security Agent übernimmt die Rolle eines virtuellen Sicherheitsberaters: Er überprüft Designdokumente und Pull-Requests auf Schwachstellen, orientiert sich dabei an organisationsspezifischen Vorgaben und verwandelt zeitaufwendige Penetrationstests in eine On-Demand-Funktion. Komplettiert wird das Trio durch den AWS DevOps Agent, der als Teil des operativen Teams Vorfälle diagnostiziert, Telemetrie- und Bereitstellungsdaten korreliert und proaktiv Verbesserungen vorschlägt.

Die zentrale Plattform für den Betrieb dieser Agenten, Amazon Bedrock AgentCore, erhielt drei wesentliche Erweiterungen. Mit AgentCore Policy lassen sich nun in natürlicher Sprache formulierte Richtlinien, sogenannte Guardrails, durchsetzen, die unbefugte Agentenaktionen in Echtzeit blockieren. AgentCore Evaluations bietet 13 vorgefertigte Metriken zur Qualitätssicherung, etwa für Korrektheit und Kontextrelevanz. AgentCore Memory, ein episodischer Speicher, ermöglicht es Agenten, aus vergangenen Interaktionen zu lernen und ihre Entscheidungsfindung anzupassen.

Ergänzt wird das Portfolio durch Amazon Nova Act, einen Dienst zur Automatisierung von Browser-UI-Workflows, der laut AWS eine Zuverlässigkeit von 90 Prozent erreicht. Auch das Open Source KI-Agenten-SDK Strands Agents, das AWS erst im Mai diesen Jahres vorgestellt hatte und zunächst auf Python fokussiert war, wurde um TypeScript-Unterstützung erweitert und läuft nun auf Edge-Geräten für Automotive- und Robotik-Anwendungen.

Bei aller technischen Raffinesse hat die wirtschaftliche Seite der Agentisierung einen deutlichen Haken. Jeff Boudier, Chief Product & Growth Officer bei Hugging Face, ordnet in einem Gespräch mit der iX ein, dass der Einsatz von KI-Agenten grundsätzlich sorgfältig hinterfragt werden müsse. Der Übergang von klassischen LLM-Anwendungen hin zu agentischen Systemen führe aufgrund ihrer iterativen Arbeitsweise zu einem drastisch höheren Rechenaufwand.

Weiterlesen nach der Anzeige

„Anstatt dass eine Nutzeranfrage etwa einen Cent kostet, liegen wir bei agentischen Systemen schnell bei drei, fünf oder sogar mehr Dollar“, erklärt Boudier. „Dieser Wandel wird im kommenden Jahr noch eine enorme Menge an Engineering-Arbeit auslösen, um diese Kosten wieder zu senken.“

Unternehmen müssen sich deshalb vorab fragen, ob sie für einen konkreten Anwendungsfall überhaupt einen Agenten benötigen, welchen Wert eine korrekte Antwort hat und wie hoch das Risiko ist, wenn ein Agent falsche Entscheidungen trifft. Auch ob die von AWS versprochene Zuverlässigkeit und Skalierbarkeit ihrer Agenten die Mehrkosten rechtfertigen, wird sich erst in der Praxis zeigen müssen.


(fo)



Source link

Weiterlesen

Entwicklung & Code

Developer-Häppchen – Kleinere News der vergangenen Woche (ehemals Snapshots)


Die beliebten Developer-Snapshots haben wir neu in leckere Häppchen verpackt. Inhaltlich bleibt alles beim Alten – ein kleiner Überblick über alles, was es zwar nicht in die News geschafft hat, wir aber dennoch für spannend halten:

Weiterlesen nach der Anzeige

    Codeformatierung mit Prettier 3.7: Das Open-Source-Tool hat an der Konsistenz zwischen Class- und Interface-Formatierung für TypeScript geschraubt. Daneben bringt es Updates für die Darstellung von JavaScript, CSS und mehr, ebenso wie Support für das aktuelle Release Angular 21.JetBrains hat den Release Candidate für IntelliJ IDEA 2025.3 veröffentlicht. Interessierte können darin neue Features wie Spring-Debugger-Updates und den Support für Spring Boot 4, Spring Framework 7 und Java 25 nutzen. Die Programmiersprache Julia hat nun eine offizielle Arbeitsgruppe für Sicherheit: die Julia Security Working Group (JSWG). Bisher haben Julia-Developer sich über Security-Arbeiten in einem informellen Rahmen ausgetauscht – via Slack, Repos und Pull Requests –, was nun jedoch in der JSWG gebündelt werden soll. Zunächst sollen Meetings im zweiwöchentlichen Takt eingeführt werden. Weitere Infos gibt es im Slack-Channel #security-dev.Apache Flink 2.2.0 bringt neue KI-Fähigkeiten mit: ML_PREDICT für LLM-Inferenz und VECTOR_SEARCH für Echtzeit-Vektor-Ähnlichkeitssuche sind nun mit an Bord.


Product Owner Days 2026

Product Owner Days 2026

(Bild: deagreez/123rf.com)

Die Product Owner Days am 5. und 6. Mai 2026 in Köln bieten über 20 Vorträge zu Product Ownership, KI im Produktmanagement, User Research, Product Discovery & Product Economics sowie weiteren aktuellen Themen. Vergünstigte Frühbuchertickets sind jetzt erhältlich.

    Was gibt es Neues im Insider-Programm für Visual Studio Code? Das erfahren Interessierte in einem Podcast, den das VS-Code-Team gestartet hat. Im Podcast sollen Gespräche mit Developern, Produktmanagern und Community-Mitwirkenden geführt werden. Das Python-Webframework Django ist in Version 6.0 erschienen. Mittels Content Security Policy (CSP) lassen sich darin Sicherheitsrichtlinien auf Browserebene konfigurieren und durchsetzen, um Content Injection vorzubeugen. Mit dem Release von Django 6.0 errreicht Django 5.2 das Ende seines Mainstream-Supports.

    JupyterLite, eine Jupyter-Distribution für Webbrowser, hat in Version 0.7 neue Features, Bugfixes und Verbesserungen eingeführt. Unter anderem bringt das Release Support für Workspaces, die es ermöglichen, Notebooks und Dateien in separaten Workspace-Umgebungen zu organisieren. Zudem bringt v0.7 integrierte Audio- und Video-Viewer mit, sodass Nutzerinnen und Nutzer entsprechende Dateien direkt aus dem UI heraus öffnen können.Die erste Beta von Vite 8, die unter der Haube den Bundler Rolldown nutzt, ist erschienen. Sie soll deutlich schnellere Produktions-Builds ermöglichen und den Weg für künftige Verbesserungen ebnen. Bisher setzte Vite auf die beiden Bundler esbuild und Rollup für verschiedene Aufgaben. Das in Rust geschriebene und für Vite konzipierte Rolldown wird nun als alleiniger Bundler eingesetzt.Das Rust-Team hat mit der Planung der Projektziele für die Programmiersprache im nächsten Jahr begonnnen. Die Planung betrifft nun nicht wie bisher jeweils sechs Monate, sondern das komplette Jahr 2026. Auch Rust-User sind dazu aufgerufen, ihre Ideen mitzuteilen.

Solltest du ein schmackhaftes Thema vermissen, freuen wir uns über deine Mail.


(mai)



Source link

Weiterlesen

Entwicklung & Code

Sulu 3.0: CMS mit neuem Content-Speicher und klarerer Architektur


Sulu 3.0 ist erschienen. Mit dem Release vollzieht das quelloffene Content-Management-System (CMS) laut Blogbeitrag eine größere technische Umstrukturierung. Statt auf das bislang genutzte PHPCR‑Repository setzt das Projekt künftig vollständig auf Doctrine ORM und JSON‑Felder – eine Entscheidung, die nicht nur die Performance heben, sondern auch die Einstiegshürde für Symfony‑Entwickler senken soll. Nach Angaben des Teams kamen rund 150.000 Zeilen Code neu hinzu, mehr als 265.000 wurden entfernt.

Weiterlesen nach der Anzeige

Das Open-Source-CMS Sulu basiert auf dem PHP-Framework Symfony und dient als Headless‑ oder klassisches CMS für komplexe, mehrsprachige Webprojekte. Es richtet sich vor allem an Entwicklerinnen und Entwickler, die flexible Inhaltsmodelle mit vertrauten Symfony‑Werkzeugen umsetzen wollen. Für Symfony sind kürzlich die Versionen 7.4 und 8.0 erschienen.

Mit der Abkehr vom speicherintensiven PHPCR führt Sulu ein neues Modell zur Ablage von Inhalten ein: Seiten, Artikel oder Snippets werden jetzt als reguläre Doctrine‑Entitäten mit JSON‑Spalten verwaltet. Damit greifen Developer direkt auf bekannte Tools und SQL‑Abfragen zurück, statt eine eigene Query‑Sprache lernen zu müssen.

Das System nutzt sogenannte Dimensionen, um Sprach‑, Veröffentlichungs‑ und Versionszustände abzubilden. So lassen sich nicht übersetzbare Felder in mehreren Sprachvarianten weiterverwenden – ein Ansatz, der die vorherige, tiefer verschachtelte Struktur ersetzt und sich offenbar leichter debuggen lässt.

Nach Angaben des Teams bringt der neue Speicheransatz spürbare Leistungsgewinne. Content‑Strukturen lassen sich nun direkt in der Datenbank nachvollziehen, während Konfigurationsdaten weiterhin als XML im Repository bleiben.

Weiterlesen nach der Anzeige

Auch das Update der PHP-Bibliothek Flysystem auf Version 3 soll zur Vereinfachung der Handhabung von Mediendateien beitragen. Diese können künftig über eine einheitliche Schnittstelle auf unterschiedlichen Backends abgelegt werden, beispielsweise auf Amazon S3, Microsoft Azure, WebDAV oder Dropbox.

Neben der Speicherarchitektur wurde das Artikel‑Bundle neu geschrieben. Es lässt sich nun ohne die Suchmaschine und das Analytic-Tool Elasticsearch betreiben, wodurch kleineren Projekten die Installation eines separaten Suchdienstes erspart bleiben soll. Für große Installationen bleibt die Option durch ein ergänzendes Bundle erhalten, das Elasticsearch wieder einbindet.

Ebenfalls neu ist SEAL, der Search Engine Abstraction Layer. Er bündelt Anbindungen an Suchsysteme wie Loupe, Meilisearch, Solr oder Elasticsearch hinter einer gemeinsamen API. Standardmäßig kommt Loupe zum Einsatz – eine SQLite‑basierte, PHP‑interne Lösung, die für mittlere Datenmengen ausreichend schnell arbeitet.

Sulu liefert ein eigenes Tool, um vorhandene PHPCR‑Daten zu konvertieren. Das Migration‑Bundle überführt Seiten, Artikel, Snippets und URLs in die neue Speicherstruktur und protokolliert detailliert, wo gegebenenfalls Nacharbeit nötig ist.

Wer die Umstellung nicht allein durchführen möchte, kann laut Entwicklerteam auf Community‑Hilfe via Slack und GitHub oder auf professionelle Unterstützung zurückgreifen. Weitere Informationen zur Hilfe sowie zum Release finden sich im Blogbeitrag.

Mit Version 3.0 endet die Pflege für Sulu 1.6, während Sulu 2.6 als LTS-Version (Long-term Support) erhalten bleibt. Die neue Architektur soll künftige Funktionen erleichtern und das CMS langfristig wartbarer machen. Näheres zum Release und zum CMS auch auf GitHub.


(mdo)



Source link

Weiterlesen

Beliebt