Connect with us

UX/UI & Webdesign

Mit dem neuen ChatGPT 2 Image Update können nicht nur Bilder generiert, sondern auch Texte geschrieben werden › PAGE online


Das Modell kann komplexe visuelle Aufgaben lösen und deutlich präziser auf detaillierte Anweisungen reagieren. Und kann mittlerweile auch menschliche Handschrift generieren.

Für mich, Jana, war Handschrift immer etwas zutiefst Menschliches. Sie ist unperfekt, individuell und manchmal kaum lesbar, aber genau darin liegt ihr Wert. Jeder, den ich kenne, hat eine eigene Handschrift, und genau das macht sie so besonders. Ich freue mich immer über selbstgeschriebene Notizen oder Postkarten von meinen Freund:innen, weil sich heutzutage so wenige Menschen die Zeit dafür nehmen.

Mit dem neuen ChatGPT 2 Image Update können nicht nur Bilder generiert, sondern auch Texte geschrieben werden › PAGE online
Der Text ist ohne jegliches spezifisches Prompting entstanden, lediglich basierend auf dem Postkarten-Kontext aus meinem Prompt. Bild: Jana Reske

Vielleicht ist es genau deshalb so irritierend, zu sehen, wie präzise KI mittlerweile Handschrift imitieren kann. Was ich immer als einzigartig und besonders angesehen habe, ist plötzlich generierbar. Mit dem neuen Image-Update von ChatGPT verschiebt sich in dieser Hinsicht etwas Grundlegendes. Text ist nicht mehr nur Inhalt innerhalb eines Bildes, sondern wird selbst zum gestaltbaren Material. Ob handschriftliche Notizen, Editorial-Layouts, UI-Elemente oder typografische Kompositionen. Damit stellt sich zwangsläufig die Frage: Was passiert mit dem Gefühl von Echtheit, wenn selbst unsere Handschrift kein verlässlicher Marker für das Menschliche mehr ist?

Was das neue Image-Modell tatsächlich kann

Das Modell setzt komplexe visuelle Ideen deutlich präziser um und hält sich zuverlässig an Details wie Typografie, Layout oder stilistische Vorgaben. Statt Ergebnissen, die nur ungefähr passen, entstehen Designs, die sich direkt weiterverwenden lassen.

Der Text ist jetzt Teil der Gestaltung. Ganze Textstrukturen wirken im Kontext des Bildes sinnvoll und überraschend stimmig, statt wie zufällige Platzhalter. Das Modell wird auch sprachlich flexibler und funktioniert inzwischen weit über englische Inhalte hinaus zuverlässig. Dadurch wird Sprache selbst zum gestaltbaren Element in internationalen Kontexten.

Bilder lassen sich direkt in verschiedenen Formaten und Seitenverhältnissen generieren, ohne dass nachträgliche Anpassungen erforderlich sind. Dadurch sind die Ergebnisse deutlich anschlussfähiger für reale Anwendungen und Plattformen.

In Kombination mit den Reasoning-Fähigkeiten wird das Modell zu einem aktiven Teil des kreativen Prozesses. Es strukturiert Inhalte, denkt visuelle Lösungen mit und kann sogar mehrere zusammenhängende Bilder in einem Schritt erzeugen. Besonders im Zusammenspiel mit Codex verschiebt sich die Bildgenerierung in Richtung eines integrierten Workflows. Anstelle einzelner Assets entstehen komplette Kompositionen, die sich direkt weiterentwickeln und in Produkte integrieren lassen.

Newsletter, Landingpage, Magazinartikel – und erstaunlich wenig Prompt

Für meinen Test habe ich bewusst mit sehr offenen Prompts gearbeitet. Anstatt konkrete Inhalte vorzugeben, habe ich lediglich eine visuelle Richtung definiert: eine monochrome rote Farbwelt, kombiniert mit Tomaten in verschiedenen Formen und Farben, die wie Modeobjekte inszeniert sind und das Ganze inspiriert von High-Fashion-Kampagnen.

 

Bild: Jana Reske

Ich habe keine Texte, keine Headlines und keine genauen Inhalte vorgegeben. Und trotzdem sind Ergebnisse entstanden, die auf den ersten Blick erstmal wie fertige Designs wirken. Der generierte Newsletter sieht aus wie ein tatsächliches Editorial-Mailing. Die Landingpage funktioniert wie eine reale Website: mit klarer Hierarchie, nachvollziehbaren Textblöcken und einer sinnvollen Struktur.

Natürlich sind die Inhalte nicht tiefgehend, aber sie sind nicht zufällig entstanden.

Die Texte wirken konsistent, thematisch passend und überraschend stimmig im Kontext des Designs. Was hier passiert, ist mehr als reine Bildgenerierung. Das neue Modell generiert eigenständig Inhalte für kreative Konzepte und trifft dabei Entscheidungen, die man sonst aktiv treffen müsste.

Noch deutlicher zeigt sich das bei der generierten Magazinseite. Auf den ersten Blick wirkt das generierte Doppelseiten-Editorial überraschend überzeugend: Die Bildsprache ist klar, es lässt sich eine gewisse typografische Hierarchie erkennen, und auch das zugrunde liegende visuelle Konzept (die Verbindung von Fashion und Tomaten) wird kreativ aufgegriffen, etwa indem einzelne Elemente wie Accessoires gedacht und inszeniert werden.

Auch im Magazinartikel hat ChatGPT Mode und Tomaten miteinander verbunden und daraus etwas Neues gemacht. Bild: Jana Reske

Auffällig ist dabei erneut, dass die Texte nicht aktiv vorgegeben wurden und sich dennoch in das Gesamtbild einfügen. Aber je länger ich diese generierten Entwürfe anschaue, desto mehr Störfaktoren kommen bei mir auf. Zwar ist das Ergebnis im ersten Schritt visuell überzeugend genug, um als funktionierendes Editorial durchzugehen, es wirkt aber dann doch nicht ganz stimmig.

Fazit: Zwischen komplexen Designs und Durchschnitt

Sowohl der generierte Newsletter als auch die Landingpage oder das Editorial wirken auf den ersten Blick erstaunlich stimmig, da sie vertraute visuelle Muster aufgreifen und diese reproduzieren. Dadurch entsteht eine Klarheit und Struktur, die sofort als »richtig« wahrgenommen wird.

Gleichzeitig liegt darin auch ihre Schwäche. Je länger man sich nämlich mit den Ergebnissen beschäftigt, desto deutlicher wird, dass diese Stimmigkeit oft mit einer gewissen Beliebigkeit einhergeht. Die Entwürfe wirken zwar solide, aber selten wirklich eigenständig. Sie wirken eher wie ein Durchschnitt dessen, was man aus unzähligen bestehenden Designs bereits kennt.

Das ist wenig überraschend, sondern eine direkte Konsequenz davon, wie solche Systeme funktionieren. Die generierten Bilder und Inhalte basieren letztlich auf Mustern aus Trainingsdaten, also einer Vielzahl existierender Magazine, Websites und visueller Formate. Aus diesen Daten wird dann die statistisch plausibelste Lösung generiert. Genau deshalb fühlen sich die Ergebnisse auf den ersten Blick so »richtig« an, aber deshalb bleiben sie oft im Durchschnitt.

Für mich liegt darin aber auch eine klare Verschiebung der Rolle von Designer:innen. Wenn KI zunehmend in der Lage ist, solche plausiblen und strukturell funktionierenden Entwürfe zu generieren, dann wird die eigentliche gestalterische Leistung weniger darin bestehen, etwas von Grund auf zu produzieren, sondern vielmehr darin, auszuwählen, zu hinterfragen und gezielt zu verfeinern.

Kuration wird somit zu einer zentralen Kompetenz.



Source link

UX/UI & Webdesign

Wenn KI denkt, hören wir dann auf zu denken? › PAGE online


KI verändert Design nicht nur als Werkzeug, sondern als Denkpartner im Prozess der Bedeutungsbildung. Die Masterarbeit von Tim Milwa zeigt, wie sich Gestaltung von Kontrolle und Produktion hin zu einem relationalen, interpretativen Prozess verschiebt.

Wenn KI denkt, hören wir dann auf zu denken? › PAGE onlineBild: Tim MilwaKI-Modelle können in Sekundenschnelle Bilder, Texte und visuelle Inspirationen produzieren und verändern damit nicht nur die Geschwindigkeit gestalterischer Prozesse, sondern auch ihr grundlegendes Verständnis. Was bedeutet es heute noch zu gestalten, wenn ein KI-Tool auf Knopfdruck Bilder generiert? Wo liegt die Grenze zwischen Werkzeug und Mitgestalter:in? Und wer trägt kreative Verantwortung, wenn Gestaltung zunehmend ein Zusammenspiel zwischen menschlicher Intention und algorithmischen Systemen wird?

Mit diesen Fragen setzt sich Tim Milwa in seiner Masterarbeit »Intelligente Werkzeuge für Bedeutungsarbeit im Design« auseinander. Im Zentrum steht nicht technische Optimierung, sondern Gestaltung als Bedeutungsarbeit. Forschungsleitend ist die Frage: »Wie kann die Interaktion von Mensch und generativer KI gestaltet werden, um Menschen bei der Bedeutungsarbeit im Gestaltungsprozess zu unterstützen?«

Es geht nicht um Effizienz, sondern um ein verändertes Verständnis von Gestaltung. Nicht als lineare Umsetzung, sondern als interpretativer, kontextabhängiger Prozess, in dem KI zunehmend mitwirkt.

Gestaltung als Bedeutungsarbeit

Gestaltung wird in der Arbeit nicht als formale Disziplin verstanden, sondern als Praxis der Bedeutungsproduktion. Design ist dabei kein reines Lösen vorgegebener Probleme, sondern ein Prozess, in dem Probleme selbst erst definiert werden. Designer:innen gestalten damit aktiv Bedeutungsräume.

Gestaltung ist immer auch Interpretation: eine Auseinandersetzung mit Material, Kontext und Intention, die sich nicht vollständig standardisieren lässt. Genau hier entstehen Spannungen durch KI-Systeme.

Die hohe generative Kapazität von KI eröffnet zwar eine große Vielfalt an Varianten, begünstigt zugleich aber eine frühe Fixierung auf stimmig wirkende Vorschläge, deren Bewertung aber tiefe menschliche Reflexion benötigen würde. Viele der Automationen sorgen kurzfristig für Gewinne, verringern aber langfristig Lerneffekte für Designschaffende und untergraben damit die zukünftige Qualität der Ergebnisse. Während klassische Werkzeuge menschliche Intention unterstützen, bringen KI-Systeme eigene »Interpretationen« ein, die aus Trainingsdaten und statistischen Mustern entstehen.

Schwarz-weißes Diagramm zur Visualisierung von Denk- und Entwicklungsprozessen. Mehrere geschwungene Linien verlaufen vom Ausgangspunkt „Implicit Frame“ auf der linken Seite zu verschiedenen Endpunkten rechts. Die Linien kreuzen und verzweigen sich, begleitet von schwarzen und grauen Quadraten. Schwarze Quadrate markieren „Productive irritation“, während die Linien als „Scaffolded externalization“ gekennzeichnet sind. Die Pfade führen zu zwei Ergebnisbereichen: „Imaginable Frames“ sowie „(Un-)Imaginable Frames“. Die Grafik vermittelt den Eindruck komplexer, nichtlinearer Denk- und Gestaltungsprozesse.
Durch bewusste Irritationen von der KI (hier als kleine Quadrate dargestellt) sollen Designer:innen zu neuen Ideen angeregt werden. Bild: Tim Milwa

Zwischen Kontrolle, Offenheit und Emergenz

Ein zentrales Spannungsfeld ist die Frage nach Kontrolle. In klassischen Designprozessen gilt sie als zentrales Qualitätskriterium: Je präziser ein Ergebnis geplant und umgesetzt werden kann, desto höher wird die gestalterische Leistung bewertet. Kontrolle steht hier für Orientierung, Sicherheit und die klare Übersetzung einer Intention in ein Ergebnis.

KI-Systeme unterlaufen dieses Prinzip jedoch grundlegend, da ihre Ergebnisse trotz klar formulierter Eingaben nicht vollständig vorhersehbar sind. Selbst kleine Variationen im Prompt können zu stark unterschiedlichen Resultaten führen. Gestaltung verschiebt sich dadurch von einem Modell der Steuerung hin zu einem Prozess der Moderation. Designer:innen geben nicht mehr nur vor, was entsteht, sondern reagieren zunehmend auf das, was das System zurückspielt, bewerten und selektieren diese Vorschläge. Kontrolle wird damit nicht aufgehoben, sondern verteilt und neu ausgehandelt.

Eng damit verbunden ist das Konzept der Emergenz. Es beschreibt das Auftreten von Eigenschaften oder Ergebnissen, die nicht direkt aus den einzelnen Bestandteilen eines Systems ableitbar sind, sondern erst durch deren Zusammenspiel entstehen. Übertragen auf den Designprozess bedeutet das, dass Ergebnisse nicht vollständig im Voraus definierbar sind, sondern sich erst im Verlauf der Interaktion zwischen Mensch und KI herausbilden.

Verschiebung von Creative Agency

Eine der zentralen Fragen betrifft Creative Agency, also die Fähigkeit, bewusst gestalterisch zu handeln. Während diese klassisch beim Menschen liegt, verschiebt sich dieses Modell durch KI-Systeme.

Diese Vorstellung von geteilter Agency bedeutet jedoch nicht, dass menschliche Gestaltungsmacht verschwindet, sondern dass sie sich verändert. Designer:innen werden zu Kurator:innen oder Moderator:innen eines Prozesses, der nicht vollständig kontrollierbar ist.

Gleichzeitig wirft diese Entwicklung auch kritische Fragen auf: Wie lässt sich Verantwortung definieren, wenn Ergebnisse gemeinsam entstehen? Wer entscheidet, welche Vorschläge angenommen oder verworfen werden? Und inwieweit beeinflussen die Trainingsdaten und Algorithmen der Systeme die gestalterischen Entscheidungen?

»Kaleido«: Ein experimentelles Designprojekt

»Kaleido« ist ein experimentelles Werkzeug zur Erforschung der Mensch-KI-Interaktion. Es ist kein fertiges Produkt, sondern ein Forschungsinstrument, das neue Formen der Zusammenarbeit sichtbar macht. Nutzer:innen geben Impulse und erhalten visuelle Antworten, die nicht vollständig vorhersehbar sind und oft unerwartete Ergebnisse erzeugen.

Ausgangspunkt ist die Beobachtung, dass KI kreative Prozesse zwar beschleunigt, aber auch dazu führen kann, dass Ideen sich früh verfestigen und weniger Vielfalt entsteht. Designer:innen werden dadurch stärker zu Kurator:innen bestehender Vorschläge. Kaleido setzt genau hier an: Es soll nicht nur bei der Gestaltung helfen, sondern vor allem zum Nachdenken anregen. Durch gezielte Fragen der KI werden Entscheidungen, Bedeutungen und Kriterien im Designprozess sichtbar gemacht.

Das System funktioniert wie ein Overlay im Designprozess. Es hilft dabei, Ideen weiterzuentwickeln und neue Perspektiven zu eröffnen, anstatt direkt fertige Lösungen zu liefern. Das Ziel besteht darin, Gestaltung offen zu halten und als Raum für Experimente, Reflexion und neue Ideen im Umgang mit KI zu nutzen.

Screenshot einer experimentellen Design- und Interface-Umgebung mit Fokus auf eine Smartphone-Wetter-App.
Nutzer:innen werden durch den Prototypen dazu aufgefordert, Designs und Applikationen wie die Apple Wetter-App zu hinterfragen. Die KI fragt sie aktiv, welche Emotionen oder Werte sie mit bestimmten Designs verbinden. Bild: Tim Milwa

Erkenntnisse über Verschiebungen im Design

Die Arbeit zeigt, dass KI nicht nur ein neues Werkzeug ist, sondern Design grundlegend verschiebt. Gestaltung wird relational, dynamisch und ko-kreativ. Mensch und Maschine wirken gemeinsam an Bedeutungsproduktion.

Ein weiteres theoretisches Ergebnis betrifft die Rolle und Handlungsmacht von KI im Designprozess. Die prototypischen Erkenntnisse widersprechen einer festen Einordnung von KI als bloßem Werkzeug oder als autonomem Akteur. Stattdessen zeigt sich Handlungsmacht als graduell, situativ und gestaltungsabhängig. Je nach Interaktionsform übernimmt KI unterschiedliche epistemische Teilhandlungen, etwa das Spiegeln bestehender Bedeutungen, das Generieren alternativer Deutungen oder das bewusste Irritieren etablierter Frames. Diese Formen von Agency sind lokal begrenzt und werden erst durch die Rückkopplung an menschliche Interpretationsprozesse epistemisch wirksam.

Ergänzend zu den kritischen Fragen der KI gibt es auch bestimmte Modi, die aktiviert werden können. Ein Beispiel ist der »Perspective Switch«, bei dem die KI eine andere Perspektive einnimmt und somit unterschiedliche Gedanken zu einem Design teilen kann. Bild: Tim Milwa

KI erscheint somit weder als Werkzeug noch als autonomes Subjekt, sondern als relationaler Faktor im Zusammenspiel mit menschlicher Interpretation. Die Ergebnisse zeigen jedoch auch Einschränkungen: Vereinfachte Prozesse können zu oberflächlichen Auseinandersetzungen führen und die Tiefe gestalterischer Reflexion reduzieren.

Fazit: Gestaltung als relationaler Prozess

Die Arbeit macht deutlich, dass KI nicht nur Gestaltung beschleunigt, sondern ihr Fundament verschiebt. Gestaltung ist nicht länger linear, kontrollierbar oder rein menschlich gesteuert, sondern ein relationaler Prozess, in dem Bedeutung im Zusammenspiel entsteht. Zentral ist der Umgang mit Unsicherheit: KI-gestützte Gestaltung ist geprägt von Ambiguität, Unvorhersehbarkeit und Iteration. Diese Bedingungen erfordern weniger Kontrolle als vielmehr Reflexion, Offenheit und ein kontinuierliches »Neudenken« von Entscheidungen.

Über Tim 

Tim Milwa arbeitet im Bereich Strategic Design und legt dabei den Fokus auf Strategie und fundierte Recherche als gestalterische Grundlage. Er bringt Ideen durch ein breites gestalterisches Skillset in erlebbare Anwendungen über unterschiedliche Medien hinweg.

Er studierte Media & Interaction Design (B.A.) und arbeitete als UX-Designer, bevor er den Master in Strategic Design an der Hochschule für Gestaltung Schwäbisch Gmünd absolvierte.

In seiner Masterarbeit untersucht er, wie Generative KI nicht primär zur Automatisierung, sondern als Werkzeug zur Erweiterung von Bedeutungsarbeit im Design eingesetzt werden kann.

Bild: Tim Milwa



Source link

Weiterlesen

UX/UI & Webdesign

DWX & Infinite AI Conference: Ein Muss für die Tech-Community › PAGE online


Die DWX – Developer World Experience 2026 ist einer der spannendsten Veranstaltungen des Jahres, weil hier Product Owner, Developer, Designer:innen und Produktmanager:innen aufeinandertreffen. Ohne langweilige Buzzword-Diskutiererei, dafür mit echten Lösungsansätzen zum Thema Product Ownership!

DWX & Infinite AI Conference: Ein Muss für die Tech-Community › PAGE onlineBild: © Foto: Developer World (i.A. Sofija De Mitri | Patrizio De Mitri | Event Wave)

Designer:innen und UX-Profis verhandeln in agilen Teams unermüdlich über Scope, Prioritäten und die ewige Lücke zwischen technischer Machbarkeit und echtem Nutzer:innenbedarf – das kommt euch bekannt vor, aber die perfekten Lösungen sind bisher nicht gefunden?

Das ist kein Wunder, denn auf den meisten Design-Konferenzen erhält das Thema »Product Ownership« wenig Aufmerksamkeit. Stakeholder aus den Bereichen Design, UX, Entwicklung und Produktmanagement verstehen die andere Sprache häufig nicht. Das lässt sich aber lösen, wenn man sich mit der jeweils anderen Seite näher auseinandersetzt – und alle an einen Tisch bringt.

Product Ownership als Track

Auf der DWX – Developer World Experience ist Product Ownership ein eigenständiger Track — kuratiert von Ina Einemann, Agile Coach mit jahrelanger Konferenzerfahrung. Die Veranstaltung findet vom 29. Juni bis 2. Juli 2026 in Mannheim statt und bietet endlich auch Product Ownern eine Bühne. Hier bleibt aber niemand unter sich, es wird auch nicht einfach über Buzzwords diskutiert.

Die DWX bringt die unterschiedlichen Expertisen von Product Ownership & Management tiefgründig zusammen. Mit dabei sind über 2.500 Entwickler:innen, Architekt:innen, DevOps-Profis und Produktverantwortliche aus der DACH-Tech-Community mit 27 kuratierten Tracks sowie 150+ Expert:innen.

Infinite AI Conference: Fokus auf systematische KI-Integration

Zeitgleich findet die Infinite AI Conference über zwei Tage vom 30. Juni bis zum 1. Juli in derselben Location statt. Wie der Name verrät, geht es hier um Künstliche Intelligenz und wie KI-Tools den gesamten Software-Lifecycle von Requirements bis hin zu Deployment verändern. Für Produktdesigner:innen und UX-Leads wird die Auseinandersetzung damit immer heißer, sogar heißer als das nächste Figma-Update.

Du lernst auf der Konferenz, welche Produktentscheidungen durch KI machbar werden — und welche Anforderungen Teams an die Entwicklung stellen können, wenn KI tief im Prozess verankert ist.

Dafür kommen über 2.500 Teilnehmende aus der DACH-Tech-Community nach Mannheim. Es wird 170+ Sessions, Workshops und Keynotes von Praktiker:innen geben. On top: die Casino Night, die seit Jahren zum festen Networking-Ritual der Szene gehört.

Warum brauchen agile Teams Product Ownership?

Der eigenständige Track stellt genau die Fragen, die in vielen Backlogs zu häufig still vor sich hin brüten: Wer entscheidet eigentlich, was gebaut wird? Wie lassen sich die Anforderungen der Kund:innen in echte Lösungen übersetzen? Warum scheitert Stakeholder-Management so oft nicht an Kommunikation, sondern am System dahinter? Und was haben Legacy-Software und Unternehmenskultur wirklich miteinander zu tun? Und wer trägt die Verantwortung, wenn es am Ende doch niemand braucht? Von »AI Customer Clones« über realistische Projekteinschätzungen bis hin zur Rolle von Entwickler:innen als aktive Produktgestalter:innen – die DWX-Konferenz möchte dazu beitragen, dass das Verständnis zwischen Product und Engineering neu justiert und besser wird.

Agilität: zeitgemäß oder abgehängt?

Passend dazu räumt der Agile-Track mit der üblichen Scrum-Liturgie auf. Statt der x-ten Wiederholung von Lehrbuch-Methoden werfen die Speaker einen nüchternen Blick auf die Realität: Warum scheitern Agile-Transformationen trotz voller Methodenkoffer? Was bedeutet Agilität im Zeitalter von KI? Und ist antifragil vielleicht das ehrlichere Konzept für das, was Teams wirklich brauchen?

Datum: 29. Juni – 2. Juli 2026 (Infinite AI: 30. Juni – 1. Juli)

Ort: m:con Congress Center Rosengarten, Mannheim

Die DWX-Topics im Überblick 

Tickets: DWX—Developer World Experience  // Infinite AI Conference

Der Kauf von Kombitickets ist möglich.

Mit dem Code PAGE15 erhältst du 15 % Rabatt auf die Tickets für dich und deine Kolleg:innen.

Einblick ins Programm

Wie eine technologiegetriebene Zukunft die Spielregeln für Produkt-Teams neu setzt:

  • Software im Zeitraffer: KI, die Beschleunigung von Delivery — und die Konsequenzen für den SDLC
  • KI und Qualität: Alles muss sich ändern, damit alles gleich bleibt
  • Prompts statt PRD: Wie AI die Requirements-Praxis umkrempelt
  • Wie sich Softwarearchitekturen, Patterns und Tool Chains durch KI rasant neu formieren
  • Wie sich die Softwareentwicklung in einer KI-gesteuerten Zukunft verändert
  • Das letzte Coding-Jahr? Der Einfluss von Claude Code auf die Softwareentwicklung
  • AIOps: Maintenance von Softwaresystemen durch KI
  • Die KI als Copilot fürs Codetesten: Hype, Hope oder Gamechanger?
  • KI im Systemtest
  • Wie KI den Software Delivery Lifecycle neu definiert

Das könnte dich auch interessieren



Source link

Weiterlesen

UX/UI & Webdesign

Ausprobiert: Wie sieht KI Queerness und LGBTQIA+? › PAGE online


KI-Bilder wirken objektiv, sind aber stark von Trainingsdaten abhängig. Deshalb fragt Jana Reske kritisch, welche (queeren) Identitäten sichtbar werden – und welche nicht.

Ausprobiert: Wie sieht KI Queerness und LGBTQIA+? › PAGE onlineBild: Jana ReskeMittlerweile sehen wir fast täglich KI-generierte Bilder, egal ob auf Social Media, in der Werbung, auf Plakaten oder in irgendwelchen WhatsApp-Gruppen. Besonders seit den neuen Updates von Google Gemini und ChatGPT ist alles sehr viel einfacher zugänglich und zu benutzen geworden. Aber gerade, wenn KI-generierte Bilder überall sind, müssen wir genauer hinschauen und hinterfragen, was oder wer auf diesen Bildern gezeigt wird und welche Personengruppen oder Minderheiten möglicherweise ausgeblendet werden. Sichtbarkeit und Repräsentation erreichen gerade ein ganz anderes Level und sind so wichtig wie nie zuvor.

Gibt es mehr Diversität bei MidJourney, DALL-E oder Google Gemini?

Wie wir mittlerweile wissen, basiert KI-Output auf Trainingsdaten aus der Vergangenheit. Gerade deswegen müssen wir aufpassen, dass wir keine alten Stereotypen oder Ungleichheiten verstärken. Denn diese Systeme zeigen nicht die Welt, wie sie ist, sondern wie sie statistisch am wahrscheinlichsten aussieht. Als Medienwissenschaftlerin und KI-Expertin wollte ich deshalb wissen, wie diese Tools queere Paare und Personen darstellen. Ich habe untersucht, wie die meistgenutzten KI-Tools Mid Journey, DALL-E und Google Gemini auf entsprechende Prompts reagieren.

Bei einem ähnlichen Test letztes Jahr zeigte sich ein klares Muster: KI generierte fast ausschließlich weiße und sehr ähnlich aussehende Paare. Heute wirkt das Bild etwas differenzierter.

Ein Vergleich von MidJourney Version 5 und Version 7 zeigt, dass sich das Modell mittlerweile zwar an Diversität versucht, der House Style des Modells aber auch sehr deutlich bleibt. Bild: Jana Reske

Die Tests zeigen, dass die großen Modelle sichtbar bemüht sind, ethnische Vielfalt und unterschiedliche Körperformen abzubilden. Endlich erscheinen mehr nicht-weiße Paare, mehr Variationen und  mehr Diversität im Look. Dabei fiel auf, dass die KI fast ausschließlich Paare erzeugte, die als weiblich gelesen werden. Schwule Paare tauchten dagegen deutlich seltener auf und teilweise erst nach gezielter Präzisierung des Prompts. Dabei tendieren alle drei Systeme in dieselbe Richtung, selbst wenn die Diversität also oberflächlich verbessert wurde, bleibt sie im Detail doch eingeschränkt.

Einige Beispielbilder der verschiedenen KI-Modelle zeigen auch hier deutliche House Styles, und die Ähnlichkeit der Ergebnisse wird offensichtlich. Bild: Jana Reske

Lassen sich der Output der KI und die Bilder durch die Trainingsdaten erklären?

Die Testergebnisse deuten darauf hin, dass im Trainingsmaterial wesentlich mehr Bildmaterial von weiblich gelesenen queeren Paaren als von männlich gelesenen enthalten ist. Die Gründe dafür liegen weniger im Algorithmus als in der Kultur, aus der die Trainingsdaten stammen. Weibliche Körper – und insbesondere weiblich gelesene Intimität – sind in der Mediengeschichte überrepräsentiert, da sie häufig sexualisiert werden. Diese Überrepräsentation schlägt sich in Bilddatenbanken, Stockfotoarchiven, Werbekampagnen, Social Media und visuellen Trends nieder.

Entsprechend stehen KI-Modellen statistisch mehr weibliche queere Bilder zur Verfügung als von schwulen Paaren. Die Forschung und kulturkritische Analyse zeigen seit Jahren, dass lesbische oder bisexuelle Frauen in den Medien häufiger dargestellt werden, da sie für ein heterosexuelles Publikum vermeintlich attraktiver oder »harmloser« erscheinen. Diesen Überschuss an bestimmten Gruppen im visuellen Bestand reproduziert dann wiederum generative KI, denn sie verstärkt unabsichtlich Muster, die in den Trainingsdaten erkennbar sind. So entsteht Bias in der Bildgenerierung. Der Vergleich der generierten Beispielbilder macht dies besonders deutlich. Selbst wenn die Hauttöne divers sind, bleibt die Vorstellung von »queer couples« algorithmisch erstaunlich homogen und überraschend geschlechtsspezifisch eingeschränkt.

Wenn wir KI-Tools zur Bildgenerierung nutzen, sollten wir uns daher fragen: Wer wird sichtbar und wer bleibt unsichtbar, selbst wenn wir nach ihnen fragen?

Was können wir im Umgang mit KI gegen diese Stereotypen tun?

Solange KI-Modelle visuelle »Durchschnittswelten« erzeugen, liegt die Verantwortung bei uns – denjenigen, die Bilder auswählen, kuratieren, prüfen und kontextualisieren. Heute ist die wichtigste Kompetenz nicht mehr nur das Prompting, sondern ein bewusstes und explizites Gegensteuern. Diversität darf nicht dem Zufall überlassen werden, sondern muss aktiv eingefordert werden. Das bedeutet beispielsweise, nicht bei »queer couple« stehen zu bleiben, sondern im Prompt präziser zu werden, wer genau dargestellt werden soll. Ein gutes Beispiel dafür ist eine Kampagne von dem Unternehmen Dove, die eine Guideline zum diversen Prompten erstellt haben. Es ist wichtig, dass wir KI-Output und Bilder nicht als Endprodukt sehen, sondern unser Rolle als Kreative auch darin verstehen diese Bilder zu hinterfragen und anzupassen.

Das könnte dich auch interessieren



Source link

Weiterlesen

Beliebt