Künstliche Intelligenz
KI-Update Deep-Dive: Videogeneratoren zwischen Hype und holpriger Realität
Kurze Clips statt Hollywood-Filme
KI-Videogeneratoren werden oft als das nächste große Ding in der Medienproduktion gefeiert, ein Werkzeug, das auf Knopfdruck beeindruckende Filmszenen erschaffen kann. Doch wie gut ist die Technologie wirklich, wenn man sie jenseits der polierten Demo-Videos betrachtet? André Kramer, Experte von der c’t, hat fünf aktuelle Modelle – Sora von OpenAI, Firefly von Adobe, Kling AI, Luma AI und Runway ML – auf den Prüfstand gestellt. Sein Fazit: Die Realität sieht noch deutlich anders aus als der Hype. Die Vorstellung von langen, perfekten Videos, die einfach so entstehen, entspricht nicht dem aktuellen Stand.
Wer auf Hollywood-reife Blockbuster per Texteingabe hofft, wird enttäuscht. Die von Kramer getesteten Modelle erzeugen derzeit lediglich kurze Clips. „Also die Videogeneratoren, die es auf dem Markt gibt und die ich getestet habe, erzeugen fünf Sekunden lange Videoclips“, erklärt Kramer. Einige schaffen zehn Sekunden, doch das sei oft nur eine Verlängerung des Bestehenden. Die Ursache liegt in der Funktionsweise der Modelle, die ähnlich wie Bildgeneratoren arbeiten, aber das gesamte Video als Einheit betrachten. Ein weiterer wichtiger Punkt: „Es wird überhaupt kein Audio mit erzeugt. Also es sind wirklich Stummfilme.“
Die Animation von Standbildern zu Videos bringt zudem eigene Herausforderungen mit sich. Während ein Bild nur stimmig aussehen muss, erfordert ein Video Kontinuität – eine große Hürde für die KI. Kramer nennt Beispiele: „Wenn ein Kind einen Burger isst, dann muss ein Stück abgebissen sein.“ Oder bei einem Hubschrauber, der ein Gebäude umfliegt, darf sich das Gebäude nicht verformen. Probleme mit Geometrie und Physik sind häufig. Auch die „Kinderkrankheiten“ der Bildgeneratoren, wie die Darstellung von Händen oder die korrekte Anzahl von Fingern, finden sich in den Videos wieder. Kramer berichtet von einer Hochzeitsszene, in der Finger und Hände, „einfach all over the place sind“. Selbst bei Action-Szenen können kuriose Ergebnisse entstehen: „In drei Fällen hatte ich einen Kampfjet mit Hubschrauberflügeln.“
Qualität und Eigenheiten der Modelle
Im Test zeigten sich deutliche Qualitätsunterschiede zwischen den fünf Kandidaten. „Kling AI und OpenAIs Sora haben bei weitem die besten Resultate abgeliefert“, fasst Kramer zusammen. Adobe Firefly, Luma und das ältere Runway-Modell im Test fielen „sehr weit dahinter zurück“ – wobei von Runway inzwischen bereits ein neueres Modell verfügbar ist, das im Test noch nicht berücksichtigt werden konnte. Interessant sei die Herangehensweise von Runway, deren Clips oft sehr ruhig und fast in Zeitlupe wirkten. Diese „kluge Selbstbeschränkung“ führe zwar zu weniger Dynamik, aber auch zu weniger Fehlern und mache die Ergebnisse durchaus kommerziell nutzbar, etwa für ästhetische Aufnahmen von Rauch oder Wasser.
Die Qualität des Ergebnisses hängt darüber hinaus stark vom Prompt ab. Kramers Ratschlag: „Nicht zu kompliziert denken.“ Je komplexer die gewünschte Szene, desto größer die Wahrscheinlichkeit, dass die KI scheitert oder unerwartete Elemente vermischt. Text in Bildern ist ebenfalls schwierig. Am besten funktionieren Klischees und wiederkehrende Motive, insbesondere solche mit angloamerikanischem Hintergrund. Szenen wie ein Motel in der Wüste gelingen eher als spezifisch europäische oder skandinavische Ästhetiken. Dies zeige, dass die Modelle „bekanntes Reproduzieren“ und in ihrer Kreativität noch begrenzt sind.
Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im „KI-Update“ von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.
Praktischer Einsatz und ethische Fragen
Für den professionellen Einsatz in der Filmproduktion sind die Generatoren laut Kramer derzeit nur bedingt geeignet. Für komplexe Szenen oder gar „Reshoots“ nach Testvorführungen seien sie noch nicht präzise genug. Mögliche Nischen seien etwa die Animation eines Gebäudefotos, wenn keine echte Aufnahme verfügbar ist, oder Workarounds bei Zeitdruck. Kramer sieht die aktuelle Qualität oft noch als „unfreiwillig komisch“.
Die einfache Bedienung wirft zudem ethische Fragen auf, insbesondere im Hinblick auf Deepfakes. Die getesteten kommerziellen Dienste versuchen dem entgegenzuwirken. „Diese Modelle […] kommen in der Regel entweder aus den USA oder wie Kling AI aus China und da ist systembedingt der Einsatz für pornografische Zwecke ausgeschlossen“, erklärt Kramer. Auch die Generierung von Material mit Prominenten oder Politikern werde meist blockiert. Ein weiteres sensibles Thema ist das Trainingsmaterial und das Recht am Bild. Adobe setze auf eigene, lizenzierte Inhalte aus seinem Stock-Dienst, was die generierbaren Motive einschränke, aber rechtliche Sicherheit biete. Andere Dienste nutzten das gesamte Internet, was zwar mehr Vielfalt ermögliche, aber auch zu Klagen wegen Urheberrechtsverletzungen führe. Das generierte Material selbst sei in der Regel urheberrechtsfrei, da die „kreative Schöpfungshöhe“ durch einen Prompt nicht erreicht werde.
Insgesamt zeigen die getesteten KI-Videogeneratoren eine faszinierende, aber noch unreife Technologie. Die Entwicklung schreitet rasant voran, neue, leistungsfähige Modelle erscheinen in schneller Abfolge, oft ganz überraschend. Neben der reinen Generierung von Clips sieht Kramer Potenzial in pragmatischeren Anwendungen wie der automatischen Videoübersetzung mit Lippensynchronisation oder der Animation von Charakteren per Video-Input. Es bleibt abzuwarten, welche Fortschritte die nächste Generation bringen wird.
(igr)