Künstliche Intelligenz
Gemini 2.5 Computer Use – Googles KI nutzt den Browser
Mit Gemini 2.5 Computer Use stellt Google ein KI-Modell vor, das darauf spezialisiert ist, das Web mittels eines Browsers so zu nutzen, wie es Menschen tun. Dabei stehen dem Modell vor allem visuelle und reasoning-Fähigkeiten aus Gemini 2.5 Pro zur Verfügung. Dank ihnen kann Gemini das menschliche Verhalten besonders gut nachahmen und entsprechend auch besonders gut eine Aufgabe erfüllen.
Wie bereits bei anderen KI-Anbietern kann auch Gemini 2.5 Computer Use Formulare ausfüllen, scrollen und sich durch Webseiten klicken. Freilich sind dafür auch agentische Fähigkeiten nötig. Diese waren bereits zuvor als Gemini API verfügbar. Dabei handelte es sich jedoch um eine nicht spezialisierte Version von Gemini. Das neue Modell soll deutlich besser mit Interfaces umgehen können, schreibt Google in einem Blogbeitrag. Gemini 2.5 Computer Use wird zunächst ebenfalls über die Gemini API in Google AI Studio und Vertex AI zur Verfügung stehen.
KI-Modell nutzt Screenshots und agentische Fähigkeiten
Das Modell analysiert zunächst eine Aufgabe und generiert daraufhin eine erste Antwort. Diese entspricht in der Regel einem Funktionsaufruf, der eine Aktion zur Folge hat – etwa Klicken oder Tippen. Um das Interface zu verstehen, wird ein Screenshot gemacht. Möglich ist auch, dass das Modell den Menschen, der die Aufgabe erteilt hat, vor einer Aktion fragt. Das soll den Kauf von 100 Paar Socken in der falschen Größe oder andere gefährliche Situationen vermeiden. Es folgt ein neuer Screenshot und ein neuer Function Call – bis die ursprüngliche Aufgabe erreicht ist.
Gemini 2.5 Computer Use ist für das Browsen im Web optimiert, bei mobilen UIs schneidet das Modell nicht ganz so gut ab. Als Zielgruppe sieht Google vor allem Entwickler, die eigene Software mittels Computer Use testen können. Abwandlungen von dem Modell unterstützen zudem die Funktionen in Google AI Mode, der neu eingeführten KI-Suche, und vom Project Mariner, Googles Version eines KI-Agenten.
Auch Anthropic hat bereits einen Computer-Use-Modus von Claude vorgestellt. Auch hier werden Screenshots genutzt, die das Modell auswertet. OpenAIs KI-Agent Operator und ChatGPT Agent arbeitet ebenfalls mit Bildschirmaufnahmen und agentischen Fähigkeiten, die beispielsweise das Ausfüllen von Formularen ermöglichen.
(emw)