Online Marketing & SEO

Wie du mit Google-KI Bilderbücher und 3D-Welten erstellst

Fotorealistische 3D‑Welten in Echtzeit und personalisierte Geschichten auf Knopfdruck: Mit Genie 3 eröffnet Google DeepMind neue Möglichkeiten für Bildung, kreatives Arbeiten und Robotik. Parallel ermöglicht die Gemini App das Erstellen individueller Bilderbücher in über 45 Sprachen und macht Lernen wie Erzählen neu erlebbar. KI, die Geschichten erzählt und Welten formt – direkt erlebbar.

Google erweitert sein KI‑Portfolio gleich doppelt: DeepMind stellt mit Genie 3 ein Weltmodell vor, das fotorealistische 3D‑Welten in Echtzeit erzeugt. Parallel bringt das Unternehmen in der Gemini App ein Storytelling Feature an den Start, das personalisierte, illustrierte Bilderbücher in über 45 Sprachen erstellt – auf Basis weniger Eingaben.

In Sekunden zum Erklärvideo:
Googles NotebookLM bekommt Video Overviews

Screenshot der Google‑NotebookLM‑Oberfläche mit Video Overview‑Player, Audio Overview und Studio‑Optionen für Mind Map und Reports. — *© Google*

Genie 3: Interaktive KI‑Welten mit Realismus und Gedächtnis

Google DeepMind hat mit Genie 3 ein neues Weltmodell vorgestellt, das interaktive 3D‑Welten in Echtzeit erzeugen kann – allein auf Basis einer Texteingabe. Die Umgebungen laufen mit 24 Bildern pro Sekunde in 720p und bleiben mehrere Minuten lang konsistent. Sogar Details wie Farben, Objektpositionen oder Landschaftsmerkmale werden gespeichert, wenn man den Blick abwendet und später zurückkehrt. In diesem kurzen offiziellen Demonstrationsvideo zeigt Google, wie Genie 3 eine interaktive 3‑Dimensional‑Welt in Echtzeit generiert.

Echtzeitdemo von Genie 3 mit fotorealistischen, begehbaren KI‑Welten, © Google DeepMind

Wie DeepMind im offiziellen Blog erklärt, können Nutzer:innen in diesen KI‑Welten frei navigieren. Sie lassen sich nicht nur betrachten, sondern auch verändern. Der Schritt gilt als Meilenstein in der Forschung zu sogenannten Weltmodellen und könnte Bildung, Robotik und kreative Produktion grundlegend verändern.

Von experimentellen Modellen zu immersiven Simulationen

Weltmodelle simulieren Umgebungen, um KI‑Systeme zu trainieren oder Szenarien für Forschung, Bildung und Unterhaltung zu erschaffen. DeepMind arbeitet seit mehr als zehn Jahren daran, von Strategiespielsimulationen bis zu Trainingsumgebungen für Roboter.

Mit den Vorgänger:innen Genie 1 und Genie 2 konnten bereits neue Szenen generiert werden. Doch die Interaktion war stark eingeschränkt: Meist ließen sich die Welten nur zehn bis 20 Sekunden lang nutzen, bevor sie instabil wurden. Laut The Verge fühlten sich diese Umgebungen eher wie eine unscharfe, sich ständig verändernde Version von Google Street View an. Genie 3 erhöht die Interaktionszeit auf mehrere Minuten, führt ein visuelles Gedächtnis von rund einer Minute ein und liefert stabilere, fotorealistische Szenen – vom Spaziergang an einem Gletschersee über die Fahrt durch ein Vulkangebiet bis zur Erkundung historischer Orte wie Venedig oder dem antiken Athen. In diesem offiziellen Clip demonstriert Google, wie Genie 3 dynamische 3D‑Welten in Echtzeit erzeugt, inklusive stabiler Umgebung, Navigation und Weltereignissen.

https://deepmind.google/api/blob/website/media/sxs_1.mp4

Das Video zeigt die Real‑Time‑Generation einer interaktiven KI‑Welt mit navigierbaren Szenarien und konsistentem visuellen Gedächtnis, © Google DeepMind

Dieses weitere Video visualisiert die Simulation natürlicher Welten mit realistischen Landschaften, fließendem Wasser und beweglicher Vegetation, erzeugt von Genie 3.

https://deepmind.google/api/blob/website/media/genie_simulating_natural_world_3_gwzGBLr.mp4

Beispiel von Genie 3‑Simulation natürlicher Umgebungen, © Google DeepMind

Ein offizieller Modellvergleich von Google zeigt zudem, dass Genie 3 die eigenen Vorgänger:innen deutlich übertrifft: Es bietet höhere Auflösung, Echtzeitreaktionen, eine längere Interaktionsdauer und erweiterte Steuerungsmöglichkeiten wie Navigation und steuerbare Weltereignisse.

*Vergleich der KI‑Modelle GameNGen, Genie 2, Veo und Genie 3 in Auflösung, Steuerung und Interaktionsdauer, © Google DeepMind*

Steuerbare Weltereignisse: Wetterwechsel, Charaktere, Hindernisse

Eine der bedeutendsten Neuerungen sind die aufforderungsfähigen Weltereignisse. Sie ermöglichen es, KI‑Welten während der Interaktion dynamisch anzupassen. Per Texteingabe können Nutzer:innen etwa das Wetter ändern, neue Objekte platzieren oder Charaktere hinzufügen. Das nachfolgende Beispiel zeigt eine von Genie 3 simulierte Skifahrt aus der Ich‑Perspektive. Hier kommen die Weltereignisse zum Einsatz, um die Szene in Echtzeit zu verändern, beispielsweise durch das Einfügen eines „Banana Skydrivers“ oder eines „Genie 3 Skiers“.

*Genie 3‑Simulation einer Skifahrt mit aufforderungsfähigen Weltereignissen, die in Echtzeit neue Objekte in die Szene einfügen, © Google DeepMind*

Diese Funktionen eröffnen zahlreiche Möglichkeiten, von Unterrichtssimulationen bis zu Robotiktests. Lehrkräfte könnten historische Ereignisse immersiv erlebbar machen, Entwickler:innen könnten autonome Systeme in riskanten Umgebungen trainieren, ohne reale Gefahren einzugehen. Laut DeepMind kann diese Steuerung auch kontrafaktische Szenarien abbilden, um das Verhalten von KI‑Agents in unvorhergesehenen Situationen zu testen.

Potenzial für KI‑Agents und AGI‑Forschung

Google sieht Genie 3 als wichtigen Schritt in Richtung Artificial General Intelligence (AGI). Darunter versteht man KI‑Systeme, die nicht nur einzelne, klar abgegrenzte Aufgaben meistern, wie etwa Texte schreiben oder Bilder generieren, sondern flexibel in vielen verschiedenen Bereichen denken, lernen und handeln können, ähnlich wie ein Mensch. Weltmodelle wie Genie 3 sind dafür wichtig, weil sie KI‑Agents in einer simulierten Welt trainieren können: Sie setzen sich Ziele, verfolgen diese über längere Zeit und passen ihr Verhalten an, wenn sich die Bedingungen ändern. In Tests mit dem eigenen SIMA‑Agent – einem generalistischen KI‑Agent, der Anweisungen in verschiedenen virtuellen 3D‑Umgebungen ausführen kann – konnte DeepMind zeigen, dass durch die längere Interaktion auch komplexere Aufgaben erfolgreich abgeschlossen wurden.

Auch Kreative könnten profitieren. Wer eine Filmszene, eine Gaming‑Kulisse oder ein Kunstprojekt plant, kann mit Genie 3 innerhalb von Sekunden detailgetreue oder stilisierte Welten generieren – ohne klassische 3D‑Software. Die Möglichkeiten reichen von realistischen Naturaufnahmen bis zu fantasievollen Landschaften mit schwebenden Bergen oder biolumineszenten Pflanzen.

Grenzen, kontrollierter Roll‑out und Ausblick

Trotz der Fortschritte hat Genie 3 klare Einschränkungen. Die Interaktionsdauer bleibt auf einige Minuten begrenzt. Komplexe Mehrspieler:inneninteraktionen sind technisch schwierig umzusetzen. Reale Orte werden nicht millimetergenau rekonstruiert. Lesbarer Text in den Welten gelingt nur, wenn er explizit vorgegeben wird.

Deshalb wird Genie 3 vorerst als eingeschränkte Forschungsvorschau veröffentlicht. Zugang erhält nur eine kleine Gruppe von Wissenschaftler:innen und Entwickler:innen, um mögliche Risiken wie Missbrauch oder Fehlinformationen frühzeitig zu erkennen. Google DeepMind betont, dass das Modell von Anfang an verantwortungsbewusst entwickelt wurde und eng mit dem hauseigenen Team für „Responsible Innovation“ abgestimmt ist.

Langfristig ist der Weg zu breiteren Anwendungen jedoch vorgezeichnet. Google sieht Potenzial in Bildung, Robotik, kreativer Medienproduktion und virtuellen Trainingsumgebungen. Während Genie 3 noch im Forschungsstadium bleibt, ist die Bilderbuchfunktion bei Gemini bereits weltweit verfügbar.

Der Google-Dino steht auf:
Mit Veo 3 und Flow Bilder als Video animieren und sprechen lassen

Gemini App: Illustrierte Bilderbücher mit persönlicher Note

Parallel zu Genie 3 erweitert Google auch die Gemini App um ein Storytelling Feature. Wie im offiziellen Blog erklärt, können Nutzer:innen personalisierte, illustrierte Bilderbücher erstellen, die zusätzlich eine Audio Vorlesefunktion enthalten. Dazu genügt eine kurze Beschreibung der gewünschten Geschichte. Gemini erstellt daraus ein zehnseitiges Buch mit passender Illustration in einem frei wählbaren Stil, von Pixelart und Comic über Knetanimation bis hin zu Malbuchoptik. Auf Wunsch kann die KI sich auch von hochgeladenen Fotos oder Kinderzeichnungen inspirieren lassen.

Google nennt Beispiele wie eine kindgerechte Geschichte über das Sonnensystem für Fünfjährige oder eine Lektion über Freundlichkeit zwischen Geschwistern, bei der die Hauptfigur nach Wunsch ein Elefant oder ein anderes Lieblingstier ist. Auch Urlaubsfotos lassen sich so in personalisierte Abenteuer verwandeln. Im offiziellen Clip demonstriert Google die Erstellung eines personalisierten Bilderbuchs in der Gemini App. Gezeigt wird der gesamte Ablauf von der Texteingabe bis zur fertigen illustrierten Geschichte mit Audio Vorlesefunktion.

Demonstration der Storybook -Funktion in der Gemini App zur Erstellung personalisierter illustrierter Geschichten, © Google

Das Feature unterstützt mehr als 45 Sprachen und ist seit dem 5. August 2025 weltweit in der Gemini App verfügbar – sowohl auf Desktop als auch mobil. Es richtet sich in erster Linie an Eltern, Pädagog:innen und kreative Anwender:innen, die individuell gestaltete Geschichten für Kinder oder Bildungsprojekte erstellen möchten. Auch für Marketer eröffnet sich Potenzial, etwa um eine kurze Markengeschichte zu erzählen. Gleiches gilt für HR‑Teams, die das Tool im Recruiting‑Kontext nutzen könnten. Die Möglichkeit, eigene Visuals hochzuladen, birgt allerdings auch ein gewisses Risiko für Plagiate. Wer das Feature testen möchte, findet das Storybook Tool unter gemini.google.com/gem/storybook.

KI, die Geschichten schreibt und Welten baut

Mit Genie 3 und der neuen Bilderbuchfunktion in der Gemini App zeigt Google, wie vielseitig generative KI inzwischen geworden ist. Auf der einen Seite steht ein Forschungs-Tool, das begehbare, realistische Welten erschafft und so eine völlig neue Dimension für Lernen, Training und kreatives Arbeiten eröffnet. Auf der anderen Seite gibt es ein sofort nutzbares Feature, das aus einer Idee in Minuten ein personalisiertes Bilderbuch entstehen lässt.

Beide Entwicklungen machen deutlich: KI wird greifbarer und kreativer und sie rückt näher an unseren Alltag. Ob als Werkzeug für Pädagog:innen, Spielwiese für Kreative oder als Lernplattform für zukünftige KI‑Agents, das Zusammenspiel von Genie 3 und der Gemini App zeigt das Potenzial, das noch vor uns liegt. Heute sind es Forschungsvorschau und frische App‑Funktion, morgen vielleicht feste Bestandteile unserer digitalen Werkzeuge.

Source link

Verwandte Themen:3DWelten Bilderbücher erstellst Google GoogleKI MIT und Wie

Inspohub

Online Marketing & SEO

Wie du mit Google-KI Bilderbücher und 3D-Welten erstellst

In Sekunden zum Erklärvideo:
Googles NotebookLM bekommt Video Overviews

Genie 3: Interaktive KI‑Welten mit Realismus und Gedächtnis

Von experimentellen Modellen zu immersiven Simulationen

Steuerbare Weltereignisse: Wetterwechsel, Charaktere, Hindernisse

Potenzial für KI‑Agents und AGI‑Forschung

Grenzen, kontrollierter Roll‑out und Ausblick

Der Google-Dino steht auf:
Mit Veo 3 und Flow Bilder als Video animieren und sprechen lassen

Gemini App: Illustrierte Bilderbücher mit persönlicher Note

KI, die Geschichten schreibt und Welten baut

Beliebt

In Sekunden zum Erklärvideo: Googles NotebookLM bekommt Video Overviews

Genie 3: Interaktive KI‑Welten mit Realismus und Gedächtnis

Von experimentellen Modellen zu immersiven Simulationen

Steuerbare Weltereignisse: Wetterwechsel, Charaktere, Hindernisse

Potenzial für KI‑Agents und AGI‑Forschung

Grenzen, kontrollierter Roll‑out und Ausblick

Der Google-Dino steht auf: Mit Veo 3 und Flow Bilder als Video animieren und sprechen lassen

Gemini App: Illustrierte Bilderbücher mit persönlicher Note

KI, die Geschichten schreibt und Welten baut

Beliebt

In Sekunden zum Erklärvideo:
Googles NotebookLM bekommt Video Overviews

Genie 3: Interaktive KI‑Welten mit Realismus und Gedächtnis

Der Google-Dino steht auf:
Mit Veo 3 und Flow Bilder als Video animieren und sprechen lassen