Künstliche Intelligenz

Wie 2021 bei LLMs: Google-Forscher über die Zukunft der Weltmodelle

World models, auf deutsch: Weltmodelle – schon die Bezeichnung klingt monumental. Mit solchen Echtzeit-KI-Modellen wie Project Genie geht Google weit über das hinaus, was Foto- und Video-KI-Modelle leisten. Diese liefern Momentaufnahmen, aber keine Nachbildung der Welt, die sich Interaktionen dynamisch anpasst. Viele dürften bei dem Gedanken zunächst an künftige Spielewelten denken, die auf Zuruf jeden dazu in die Lage versetzen, seine Wunschspiele zu erschaffen. Doch dem Forschungsteam geht es primär um etwas anderes: Hier denkt man vor allem an Einsatzzwecke in der Robotik oder an einen Simulator, um Katastrophen zu simulieren.

Weiterlesen nach der Anzeige

Auf der Entwicklerkonferenz Google I/O wurde die Erweiterung des 3D-Weltgenerators um echte Orte aus Street View angekündigt. Im Gespräch mit heise online erklärten Genie-Forscher Jack Parker-Holder und Diego Rivas, Group Product Manager bei Google DeepMind, wo das Modell aktuell steht.

Was ist ein World Model?

Der Ansatz klingt simpel, ist technisch aber anspruchsvoll: Genie lernt, wie sich eine Welt in Abhängigkeit von Aktionen verändert. Man drückt eine Taste – links, rechts, vorwärts –, und das Modell berechnet den nächsten Frame der Welt. „Es ist mehr ein Language-Model als ein klassisches Videomodell“, erklärt Forschungsleiter Jack Parker-Holder. Klassische Videogeneratoren produzieren ein ganzes Video auf einmal – Genie generiert Frame für Frame, kausal und interaktiv.

Das Ergebnis ist kein Videospiel im klassischen Sinne, sondern ein neuartiger Modelltyp: eine Art universeller Simulator, der mit einem Textprompt jede vorstellbare Welt erzeugen kann – von historischen Szenarien bis zu Katastrophengebieten.

Street View als Anker für die reale Welt

Neu in Genie 3 ist die Integration von Google Street View. Nutzer können jetzt reale Orte als Ausgangspunkt wählen; das Modell generiert von dort aus eine interaktive Welt. Laut Diego Rivas kam der Anstoß dazu von den Nutzerinnen und Nutzern selbst: Sie hätten das System immer wieder mit Prompts wie „bring mich nach New York“ oder „zeige mir meine Heimatstadt“ konfrontiert. Street View liefert nun den geografischen Anker, von dem aus Genie weitergeneriert. Vorerst sind US-Standorte verfügbar, eine globale Ausweitung ist geplant.

Weiterlesen nach der Anzeige

Technische Grenzen: Echtzeit als Engpass

Jack Parker-Holder

(Bild: heise online / Malte Kirchner)

Genie 3 läuft in Echtzeit – und das bei einem Modell, das gleichzeitig Langzeitgedächtnis, hohe Ausgabeauflösung und breite Generalisierungsfähigkeit mitbringt. Parker-Holder beschreibt das als „technisch sehr anspruchsvoll“: Eine Tasteneingabe des Nutzers muss über das Netzwerk zu einem TPU-Cluster gelangen, dort verarbeitet werden und als gerenderter Frame zurückkommen – alles mit minimalem Latenzspielraum.

Zur realen Welt besteht dabei noch eine erhebliche Lücke: Sich bewegende Menschen, Umgebungsgeräusche, 4K-Auflösung – all das liegt jenseits der heutigen Möglichkeiten. „Wir haben aber ziemlich gute Ideen für die nächsten paar Schritte“, sagt Parker-Holder.

Was Genie von anderen KI-Projekten unterscheidet: Dieselbe Modellbasis treibt sehr unterschiedliche Anwendungen an. Waymo nutzt es, um seltene Verkehrsszenarien zu simulieren – etwa einen Elefanten auf der Straße oder einen Tornado. Ein anderer Anwendungsfall ist das Trainieren komplexer Roboter. Statt Millionen Male etwas auszuprobieren und damit zu scheitern, könne eine Aufgabe so schneller richtig erlernt werden.

Robotik: Noch nicht da, aber auf dem Weg

Diego Rivas

(Bild: heise online / Malte Kirchner)

Langfristig sieht das Team World Models als unverzichtbare Grundlage für KI in Körperform. Roboter müssen in der realen Welt agieren, also brauchen sie realistische Simulation zum Training.

Aktuell stehen Robotikteams noch vor dem sogenannten „Control Problem“: Kann ein Roboter zuverlässig jedes Objekt greifen, auf jedem Untergrund laufen? Erst wenn das gelöst ist, rückt die nächste Herausforderung in den Vordergrund – soziale Intelligenz, das Verstehen menschlichen Verhaltens in unvorhersehbaren Situationen. Genau dort sieht Parker-Holder das größte Potenzial von World Models.

Wettbewerb: Noch früh

Im Marktvergleich ordnet das Team die Situation nüchtern ein: „Im Vergleich zu LLMs stehen wir im Jahr 2021.“ Viele Akteure würden unter dem Begriff „World Model“ sehr unterschiedliche Dinge bauen. Eine direkte Vergleichbarkeit gebe es kaum. In den nächsten Jahren rechnet Parker-Holder mit einer Konsolidierung – und wenigen großen Playern, die den Markt prägen werden. Auf der Google I/O wurden neben Genie 3 auch neue Sprachmodelle vorgestellt: Gemini 3.5 Flash und Gemini Omni Flash sollen künftig Videogenerierung und autonome Agenten-Aufgaben übernehmen.

(mki)

Source link

Inspohub