Apps & Mobile Entwicklung

Dynamisches Weltmodell: Googles Genie 3 hat ein visuelles Kurzzeitgedächtnis


Dynamisches Weltmodell: Googles Genie 3 hat ein visuelles Kurzzeitgedächtnis

Bild: Google DeepMind

Google DeepMind arbeitet mit Genie 3 an einem neuen Weltmodell, das dynamische Welten generieren kann, in denen sich Anwender bewegen können. Die Besonderheit der generativen KI ist ihr Gedächtnis, denn Genie 3 soll sich für rund eine Minute die Geschehnisse merken können, was viele Modelle noch vor Herausforderungen stellt.

Genie 3 ist aktuell noch ein Forschungsprojekt von Google DeepMind, es steht demnach nicht der allgemeinen Öffentlichkeit zur Verfügung. Google bietet es aber ausgewählten Wissenschaftlern und Kreativschaffenden an, um erstes Feedback zu sammeln.

Genie 3 erzeugt dynamische Welten in 720p

Auf einen Prompt kann Genie 3 für mehrere Minuten dynamische Welten mit einer maximalen Auflösung von 720p bei 24 FPS erzeugen, in der sich Anwender in Echtzeit bewegen können. Die Besonderheit des Weltmodells ist die Beständigkeit der generierten Inhalte, was für rund eine Minute gewährleistet wird. Das Weltmodell vergisst den generierten Inhalt oder Veränderungen daran somit nicht sofort wieder, sobald der Blick abgewendet wird. Weltmodelle seien Google zufolge ein wichtiger Schritt auf dem Pfad zur AGI, da so praktisch ein unendlicher Lehrplan simulierter Umgebungen erstellt werden könne.

Die unterschiedlichen Modelle Googles im Vergleich (Bild: Google DeepMind)

Genie 3 kann komplexe Umgebungen mit Naturphänomen wie Wasser und Licht und deren dynamisches Zusammenspiel erzeugen, das Verhalten von Tieren und Pflanzen nachstellen oder animierte Charaktere generieren. In den Beispielen von Google werden dabei jeweils die generierte Umgebungen und als Overlay die Eingaben des Nutzers in der dynamischen Welt gezeigt, die die Blickrichtung beeinflusst.

Genie 3 vergisst nicht so schnell

Damit KI-generierte Welten tatsächlich immersiv sein können, müssen sie laut Google über einen langen Horizont eine physische Beständigkeit aufweisen. Genie 3 kann dynamische Welten über mehrere Minuten generieren, das visuelle Gedächtnis des Modells liege bei rund einer Minute. Google zeigt beispielhaft das Malen mit blauer Farbe und einem Farbroller auf einer Wand, sowie eine Tafel mit Text und Grafiken – beides bleibt erhalten, wenn der Anwender den Blick abwendet und später wieder zurückkehrt.

In den von Genie 3 generierten Welten lässt sich nicht nur navigieren, die Welten lassen sich zusätzlich auch über weitere Prompts im laufenden Betrieb weiter verändern. Google nennt das „promptable world events“ und ermöglicht damit live zum Beispiel Veränderungen des Wetters oder das Einfügen neuer Objekte und Charaktere.



Source link

Beliebt

Die mobile Version verlassen