Entwicklung & Code

Gemini 2.5 Computer Use – optimiert für die Browsernutzung

Mit Gemini 2.5 Computer Use stellt Google ein KI-Modell vor, das darauf spezialisiert ist, das Web mittels eines Browsers so zu nutzen, wie es Menschen tun. Dabei stehen dem Modell vor allem visuelle und reasoning-Fähigkeiten aus Gemini 2.5 Pro zur Verfügung. Dank ihnen kann Gemini das menschliche Verhalten besonders gut nachahmen und entsprechend auch besonders gut eine Aufgabe erfüllen.

Wie bereits bei anderen KI-Anbietern kann auch Gemini 2.5 Computer Use Formulare ausfüllen, scrollen und sich durch Webseiten klicken. Freilich sind dafür auch agentische Fähigkeiten nötig. Diese waren bereits zuvor als Gemini API verfügbar. Dabei handelte es sich jedoch um eine nicht spezialisierte Version von Gemini. Das neue Modell soll deutlich besser mit Interfaces umgehen können, schreibt Google in einem Blogbeitrag. Gemini 2.5 Computer Use wird zunächst ebenfalls über die Gemini API in Google AI Studio und Vertex AI zur Verfügung stehen.

KI-Modell nutzt Screenshots und agentische Fähigkeiten

Das Modell analysiert zunächst eine Aufgabe und generiert daraufhin eine erste Antwort. Diese entspricht in der Regel einem Funktionsaufruf, der eine Aktion zur Folge hat – etwa Klicken oder Tippen. Um das Interface zu verstehen, wird ein Screenshot gemacht. Möglich ist auch, dass das Modell den Menschen, der die Aufgabe erteilt hat, vor einer Aktion fragt. Das soll den Kauf von 100 Paar Socken in der falschen Größe oder andere gefährliche Situationen vermeiden. Es folgt ein neuer Screenshot und ein neuer Function Call – bis die ursprüngliche Aufgabe erreicht ist.

Gemini 2.5 Computer Use ist für das Browsen im Web optimiert, bei mobilen UIs schneidet das Modell nicht ganz so gut ab. Als Zielgruppe sieht Google vor allem Entwickler, die eigene Software mittels Computer Use testen können. Abwandlungen von dem Modell unterstützen zudem die Funktionen in Google AI Mode, der neu eingeführten KI-Suche, und vom Project Mariner, Googles Version eines KI-Agenten.

Auch Anthropic hat bereits einen Computer-Use-Modus von Claude vorgestellt. Auch hier werden Screenshots genutzt, die das Modell auswertet. OpenAIs KI-Agent Operator und ChatGPT Agent arbeitet ebenfalls mit Bildschirmaufnahmen und agentischen Fähigkeiten, die beispielsweise das Ausfüllen von Formularen ermöglichen.

(emw)

Source link

Verwandte Themen:Browsernutzung Computer Die Fur Gemini Google google gemini IT Künstliche Intelligenz optimiert

Up Next

Open Source: Neue React Foundation unter dem Dach der Linux Foundation

Nicht verpassen

Docker öffnet Zugang zu sicheren Images für Entwicklungsteams aller Größen

Entwicklung & Code

Gegen nervige Alltagsaufgaben: Amazon AWS bringt neue KI-Agenten

Auf seiner diesjährigen Hausmesse re:Invent machte AWS unmissverständlich klar, wohin die Reise geht: Agentische KI-Systeme sollen künftig nicht nur einfache Aufgaben erledigen, sondern stunden- oder sogar tagelang autonom arbeiten. Mit den sogenannten Frontier Agents kündigte Amazon eine neue Generation von KI-Agenten an, die ohne ständige menschliche Anleitung persistente Kontexte aufrechterhalten und komplexe Workflows bewältigen sollen.

Weiterlesen nach der Anzeige

Im Mittelpunkt stehen drei spezialisierte Agenten, die den Software-Entwicklungszyklus transformieren sollen. Der Kiro Autonomous Agent fungiert als virtueller Entwickler, der Backlogs abarbeitet, Bugs klassifiziert sowie priorisiert und Aufgaben über mehrere Code-Repositories hinweg eigenständig löst. Dabei lernt er kontinuierlich aus Feedback und Pull-Requests. Der AWS Security Agent übernimmt die Rolle eines virtuellen Sicherheitsberaters: Er überprüft Designdokumente und Pull-Requests auf Schwachstellen, orientiert sich dabei an organisationsspezifischen Vorgaben und verwandelt zeitaufwendige Penetrationstests in eine On-Demand-Funktion. Komplettiert wird das Trio durch den AWS DevOps Agent, der als Teil des operativen Teams Vorfälle diagnostiziert, Telemetrie- und Bereitstellungsdaten korreliert und proaktiv Verbesserungen vorschlägt.

Bedrock AgentCore wird erweitert

Die zentrale Plattform für den Betrieb dieser Agenten, Amazon Bedrock AgentCore, erhielt drei wesentliche Erweiterungen. Mit AgentCore Policy lassen sich nun in natürlicher Sprache formulierte Richtlinien, sogenannte Guardrails, durchsetzen, die unbefugte Agentenaktionen in Echtzeit blockieren. AgentCore Evaluations bietet 13 vorgefertigte Metriken zur Qualitätssicherung, etwa für Korrektheit und Kontextrelevanz. AgentCore Memory, ein episodischer Speicher, ermöglicht es Agenten, aus vergangenen Interaktionen zu lernen und ihre Entscheidungsfindung anzupassen.

Ergänzt wird das Portfolio durch Amazon Nova Act, einen Dienst zur Automatisierung von Browser-UI-Workflows, der laut AWS eine Zuverlässigkeit von 90 Prozent erreicht. Auch das Open Source KI-Agenten-SDK Strands Agents, das AWS erst im Mai diesen Jahres vorgestellt hatte und zunächst auf Python fokussiert war, wurde um TypeScript-Unterstützung erweitert und läuft nun auf Edge-Geräten für Automotive- und Robotik-Anwendungen.

Warnung vor explodierenden Kosten

Bei aller technischen Raffinesse hat die wirtschaftliche Seite der Agentisierung einen deutlichen Haken. Jeff Boudier, Chief Product & Growth Officer bei Hugging Face, ordnet in einem Gespräch mit der iX ein, dass der Einsatz von KI-Agenten grundsätzlich sorgfältig hinterfragt werden müsse. Der Übergang von klassischen LLM-Anwendungen hin zu agentischen Systemen führe aufgrund ihrer iterativen Arbeitsweise zu einem drastisch höheren Rechenaufwand.

Weiterlesen nach der Anzeige

„Anstatt dass eine Nutzeranfrage etwa einen Cent kostet, liegen wir bei agentischen Systemen schnell bei drei, fünf oder sogar mehr Dollar“, erklärt Boudier. „Dieser Wandel wird im kommenden Jahr noch eine enorme Menge an Engineering-Arbeit auslösen, um diese Kosten wieder zu senken.“

Unternehmen müssen sich deshalb vorab fragen, ob sie für einen konkreten Anwendungsfall überhaupt einen Agenten benötigen, welchen Wert eine korrekte Antwort hat und wie hoch das Risiko ist, wenn ein Agent falsche Entscheidungen trifft. Auch ob die von AWS versprochene Zuverlässigkeit und Skalierbarkeit ihrer Agenten die Mehrkosten rechtfertigen, wird sich erst in der Praxis zeigen müssen.

(fo)

Source link

Entwicklung & Code

Developer-Häppchen – Kleinere News der vergangenen Woche (ehemals Snapshots)

Die beliebten Developer-Snapshots haben wir neu in leckere Häppchen verpackt. Inhaltlich bleibt alles beim Alten – ein kleiner Überblick über alles, was es zwar nicht in die News geschafft hat, wir aber dennoch für spannend halten:

Weiterlesen nach der Anzeige

Codeformatierung mit Prettier 3.7

Release Candidate für IntelliJ IDEA 2025.3

Die Programmiersprache Julia

#security-dev

Apache Flink 2.2.0

ML_PREDICT

VECTOR_SEARCH

Product Owner Days 2026 — (Bild: deagreez/123rf.com)

Die Product Owner Days am 5. und 6. Mai 2026 in Köln bieten über 20 Vorträge zu Product Ownership, KI im Produktmanagement, User Research, Product Discovery & Product Economics sowie weiteren aktuellen Themen. Vergünstigte Frühbuchertickets sind jetzt erhältlich.

das VS-Code-Team gestartet hat

Django ist in Version 6.0 erschienen

JupyterLite, eine Jupyter-Distribution für Webbrowser

Die erste Beta von Vite 8

sind dazu aufgerufen, ihre Ideen mitzuteilen

Solltest du ein schmackhaftes Thema vermissen, freuen wir uns über deine Mail.

(mai)

Source link

Entwicklung & Code

Sulu 3.0: CMS mit neuem Content-Speicher und klarerer Architektur

Sulu 3.0 ist erschienen. Mit dem Release vollzieht das quelloffene Content-Management-System (CMS) laut Blogbeitrag eine größere technische Umstrukturierung. Statt auf das bislang genutzte PHPCR‑Repository setzt das Projekt künftig vollständig auf Doctrine ORM und JSON‑Felder – eine Entscheidung, die nicht nur die Performance heben, sondern auch die Einstiegshürde für Symfony‑Entwickler senken soll. Nach Angaben des Teams kamen rund 150.000 Zeilen Code neu hinzu, mehr als 265.000 wurden entfernt.

Weiterlesen nach der Anzeige

Das Open-Source-CMS Sulu basiert auf dem PHP-Framework Symfony und dient als Headless‑ oder klassisches CMS für komplexe, mehrsprachige Webprojekte. Es richtet sich vor allem an Entwicklerinnen und Entwickler, die flexible Inhaltsmodelle mit vertrauten Symfony‑Werkzeugen umsetzen wollen. Für Symfony sind kürzlich die Versionen 7.4 und 8.0 erschienen.

Von PHPCR zu Doctrine ORM

Mit der Abkehr vom speicherintensiven PHPCR führt Sulu ein neues Modell zur Ablage von Inhalten ein: Seiten, Artikel oder Snippets werden jetzt als reguläre Doctrine‑Entitäten mit JSON‑Spalten verwaltet. Damit greifen Developer direkt auf bekannte Tools und SQL‑Abfragen zurück, statt eine eigene Query‑Sprache lernen zu müssen.

Das System nutzt sogenannte Dimensionen, um Sprach‑, Veröffentlichungs‑ und Versionszustände abzubilden. So lassen sich nicht übersetzbare Felder in mehreren Sprachvarianten weiterverwenden – ein Ansatz, der die vorherige, tiefer verschachtelte Struktur ersetzt und sich offenbar leichter debuggen lässt.

Bessere Performance und Vereinfachungen

Nach Angaben des Teams bringt der neue Speicheransatz spürbare Leistungsgewinne. Content‑Strukturen lassen sich nun direkt in der Datenbank nachvollziehen, während Konfigurationsdaten weiterhin als XML im Repository bleiben.

Weiterlesen nach der Anzeige

Auch das Update der PHP-Bibliothek Flysystem auf Version 3 soll zur Vereinfachung der Handhabung von Mediendateien beitragen. Diese können künftig über eine einheitliche Schnittstelle auf unterschiedlichen Backends abgelegt werden, beispielsweise auf Amazon S3, Microsoft Azure, WebDAV oder Dropbox.

Entfall der Elasticsearch‑Pflicht für Artikel

Neben der Speicherarchitektur wurde das Artikel‑Bundle neu geschrieben. Es lässt sich nun ohne die Suchmaschine und das Analytic-Tool Elasticsearch betreiben, wodurch kleineren Projekten die Installation eines separaten Suchdienstes erspart bleiben soll. Für große Installationen bleibt die Option durch ein ergänzendes Bundle erhalten, das Elasticsearch wieder einbindet.

Ebenfalls neu ist SEAL, der Search Engine Abstraction Layer. Er bündelt Anbindungen an Suchsysteme wie Loupe, Meilisearch, Solr oder Elasticsearch hinter einer gemeinsamen API. Standardmäßig kommt Loupe zum Einsatz – eine SQLite‑basierte, PHP‑interne Lösung, die für mittlere Datenmengen ausreichend schnell arbeitet.

Migration und Unterstützung

Sulu liefert ein eigenes Tool, um vorhandene PHPCR‑Daten zu konvertieren. Das Migration‑Bundle überführt Seiten, Artikel, Snippets und URLs in die neue Speicherstruktur und protokolliert detailliert, wo gegebenenfalls Nacharbeit nötig ist.

Wer die Umstellung nicht allein durchführen möchte, kann laut Entwicklerteam auf Community‑Hilfe via Slack und GitHub oder auf professionelle Unterstützung zurückgreifen. Weitere Informationen zur Hilfe sowie zum Release finden sich im Blogbeitrag.

Weiterer Fahrplan

Mit Version 3.0 endet die Pflege für Sulu 1.6, während Sulu 2.6 als LTS-Version (Long-term Support) erhalten bleibt. Die neue Architektur soll künftige Funktionen erleichtern und das CMS langfristig wartbarer machen. Näheres zum Release und zum CMS auch auf GitHub.

(mdo)

Source link

Illustrierte Reise nach New York City › PAGE online

UX/UI & Webdesignvor 2 Monaten

Illustrierte Reise nach New York City › PAGE online

Jetzt patchen! Erneut Attacken auf SonicWall-Firewalls beobachtet

Datenschutz & Sicherheitvor 3 Monaten

Jetzt patchen! Erneut Attacken auf SonicWall-Firewalls beobachtet

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Künstliche Intelligenzvor 2 Monaten

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Top 10: Die beste kabellose Überwachungskamera im Test

Künstliche Intelligenzvor 2 Monaten

Top 10: Die beste kabellose Überwachungskamera im Test

Fake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online

UX/UI & Webdesignvor 3 Monaten

Fake It Untlil You Make It? Trifft diese Kampagne den Nerv der Zeit? › PAGE online

UX/UI & Webdesignvor 2 Monaten

SK Rapid Wien erneuert visuelle Identität

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Entwicklung & Codevor 3 Wochen

Kommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac

Schluss mit FOMO im Social Media Marketing – Welche Trends und Features sind für Social Media Manager*innen wirklich relevant?

Social Mediavor 3 Monaten

Schluss mit FOMO im Social Media Marketing – Welche Trends und Features sind für Social Media Manager*innen wirklich relevant?

Inspohub

Gemini 2.5 Computer Use – optimiert für die Browsernutzung

Entwicklung & Code

Gemini 2.5 Computer Use – optimiert für die Browsernutzung

KI-Modell nutzt Screenshots und agentische Fähigkeiten

Entwicklung & Code

Gegen nervige Alltagsaufgaben: Amazon AWS bringt neue KI-Agenten

Bedrock AgentCore wird erweitert

Warnung vor explodierenden Kosten

Entwicklung & Code

Developer-Häppchen – Kleinere News der vergangenen Woche (ehemals Snapshots)

Entwicklung & Code

Sulu 3.0: CMS mit neuem Content-Speicher und klarerer Architektur

Von PHPCR zu Doctrine ORM

Bessere Performance und Vereinfachungen

Entfall der Elasticsearch‑Pflicht für Artikel

Migration und Unterstützung

Weiterer Fahrplan

Syncthing‑Fork unter fremder Kontrolle? Community schluckt das nicht

Space ist Deutschlands nächstes Industriegebiet: Lara Sophie Bothur im Interview

Dieses E-SUV setzt neue Maßstäbe

Illustrierte Reise nach New York City › PAGE online

Jetzt patchen! Erneut Attacken auf SonicWall-Firewalls beobachtet

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Beliebt

Inspohub

Gemini 2.5 Computer Use – optimiert für die Browsernutzung

KI-Modell nutzt Screenshots und agentische Fähigkeiten

Das könnte Ihnen gefallen

Entwicklung & Code

Gegen nervige Alltagsaufgaben: Amazon AWS bringt neue KI-Agenten

Bedrock AgentCore wird erweitert

Warnung vor explodierenden Kosten

Entwicklung & Code

Developer-Häppchen – Kleinere News der vergangenen Woche (ehemals Snapshots)

Entwicklung & Code

Sulu 3.0: CMS mit neuem Content-Speicher und klarerer Architektur

Von PHPCR zu Doctrine ORM

Bessere Performance und Vereinfachungen

Entfall der Elasticsearch‑Pflicht für Artikel

Migration und Unterstützung

Weiterer Fahrplan

Syncthing‑Fork unter fremder Kontrolle? Community schluckt das nicht

Space ist Deutschlands nächstes Industriegebiet: Lara Sophie Bothur im Interview

Dieses E-SUV setzt neue Maßstäbe

Illustrierte Reise nach New York City › PAGE online

Jetzt patchen! Erneut Attacken auf SonicWall-Firewalls beobachtet

Aus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle

Beliebt