Apps & Mobile Entwicklung

ChatGPT Images 2.0: Neuer Bildgenerator setzt vor allem auf besseres Verständnis

OpenAI hat die zweite Version seines Bildgenerators für ChatGPT vorgestellt und will damit vor allem zu Googles Nano Banana 2 aufschließen. Im Mittelpunkt der Weiterentwicklung steht weniger die reine Bilderzeugung als vielmehr ein verbessertes Verständnis der Nutzereingaben, um präzisere Ergebnisse zu liefern.

Bessere Schlussfolgerungen und besseres Verständnis

Mit ChatGPT Images 2.0 rückt OpenAI insbesondere die Fähigkeit zu Schlussfolgerungen sowie eine gesteigerte Genauigkeit in den Fokus. Im Gegensatz zum vor einem Jahr veröffentlichten Vorgänger setzt das Modell nicht mehr ausschließlich auf die direkte Umsetzung von Eingaben in Bilder, sondern interpretiert diese stärker im Kontext der beabsichtigten Nutzung. ChatGPT verfolgt damit einen bewussteren Ansatz und „denkt“ darüber nach, welches Ziel der Anwender mit seiner Eingabe verfolgen könnte. Dieses erweiterte „Verständnis der Welt“ soll sich unmittelbar in der Qualität der Bildgenerierung niederschlagen. Grundlage bildet ein Wissensstand bis Dezember 2025.

Ein Bildgenerator, der sich nicht wie ein Bildgenerator anfühlen soll

Darüber hinaus kann das Modell aus einer einzelnen Eingabe nun bis zu acht Varianten generieren, bei denen die zugrunde liegende Idee erhalten bleiben soll und gezielt weiterverarbeitet werden kann. OpenAI zielt damit auf eine Arbeitsweise ab, die sich weniger wie die Nutzung eines klassischen Bildgenerators anfühlt, sondern eher wie die Zusammenarbeit mit einem unterstützenden Werkzeug. Das Unternehmen beschreibt ChatGPT Images 2.0 in diesem Zusammenhang auch als „visuellen Denkpartner“. Wird bei der Generierung ein Thinking- oder Pro-Modell verwendet, kann Images 2.0 zudem in Echtzeit online recherchieren und die gewonnenen Informationen einfließen lassen.

„Make a sample page of a colorized Japanese shonen adventure manga. The page should vividly depict our main character found a magical quill. The name of the quill is called the Quill of GPT Image. Make it dramatic. The magical quill has strong power sealed inside it.“ (Bild: OpenAI)

Bessere Verarbeitung von komplexeren Anforderungen verbunden mit besseren Ergebnissen

Durch diesen Ansatz soll ChatGPT komplexe Eingaben deutlich besser, schneller und präziser verarbeiten können. In der Praxis führt das zu weniger notwendigen Korrekturen und damit zu einer schnelleren Erstellung von Bildern, die den Vorstellungen des Nutzers möglichst exakt entsprechen. Gleichzeitig sollen dadurch auch die Kosten sinken. Zudem verspricht OpenAI eine höhere Konsistenz über mehrere generierte Ergebnisse hinweg, was wiederum die Zuverlässigkeit steigert. Auch das Einbetten von Texten in Bildern, das in der Vergangenheit für viele KI-Tools eine Herausforderung darstellte, wurde laut OpenAI deutlich verbessert.

„cantor’s diagonalization proof, infographic“ (Bild: OpenAI)

Damit soll Images 2.0 in der Lage sein, feinere Details wie kleine Texte, Ikonografie, UI-Elemente, komplexe Kompositionen und subtile stilistische Vorgaben präziser darzustellen, an denen frühere Modelle häufig scheiterten. Unterstützt werden Auflösungen von bis zu 2K. Darüber hinaus profitieren Anwender von größerer Flexibilität bei den Seitenverhältnissen, was die Bandbreite möglicher Ergebnisse erweitert. Auch die Darstellung nicht-lateinischer Schriftsysteme wie Bengali, Hindi, Japanisch, Koreanisch und Mandarin wurde verbessert, sodass erzeugte Texte nicht nur korrekt wiedergegeben werden, sondern auch sprachlich kohärent bleiben.

Bilder mit realem Nutzen

Die Ausrichtung der Neuerungen zeigt, dass OpenAI sich stärker vom reinen Trenddenken im Bereich KI-Bildgeneratoren entfernt und den praktischen Nutzen in den Vordergrund stellt. Das verbesserte Verständnis von Eingaben, die präzisere Bildgenerierung und die erweiterte Textunterstützung sollen ChatGPT Images 2.0 insbesondere für Präsentationen, Inhalte in sozialen Medien oder das schnelle Festhalten spontaner Ideen prädestinieren. In Kombination mit Codex lässt sich das Modell zudem für Aufgaben in Design, Marketing, Produktentwicklung, Vertrieb sowie Aus- und Weiterbildung einsetzen. So können etwa mehrere UI-Richtlinien, Konzepte und Prototypen erzeugt, Varianten zügig verglichen und ausgewählte Ergebnisse direkt in produktive Anwendungen oder Websites überführt werden, ohne die Codex-App zu verlassen.

„A photorealistic candid travel scene of a person standing at a coastal roadside turnout on an overcast morning, shot on 35mm film. Natural imperfect framing, visible grain, ambient light, muted colors, wind in clothing and hair, cinematic realism, and the feeling of a lived-in documentary photograph.“ (Bild: OpenAI)

Noch lange nicht perfekt

Trotz der Fortschritte betont OpenAI, dass ChatGPT Images 2.0 weiterhin nicht fehlerfrei arbeitet. Insbesondere Aufgaben, die ein umfassendes und konsistentes Verständnis physischer Zusammenhänge erfordern, können das Modell vor Herausforderungen stellen. Als Beispiele nennt das Unternehmen unter anderem Origami-Anleitungen oder komplexe Puzzles wie den Rubik’s Cube sowie Situationen, in denen Details auf verdeckten, schrägen oder umgekehrten Oberflächen korrekt dargestellt werden müssen. Auch sehr dichte oder sich wiederholende visuelle Strukturen, wie etwa feine Sandkörner, können die Leistungsfähigkeit des Modells an ihre Grenzen bringen.

Ab heute verfügbar

ChatGPT Images 2.0 steht ab sofort allen Nutzern von ChatGPT und Codex zur Verfügung. Erweiterte Funktionen im Thinking-Modus sind jedoch ausschließlich Abonnenten der Plus-, Pro-, Business- und Enterprise-Tarife vorbehalten. Auch die zugehörige API ist bereits verfügbar, wobei die Kosten je nach gewählter Bildqualität und Auflösung variieren.

Source link

Verwandte Themen:allem auf besseres Bildgenerator ChatGPT Images Neuer setzt Verständnis vor

Inspohub