Connect with us

Künstliche Intelligenz

KI-Update Deep-Dive: Videogeneratoren zwischen Hype und holpriger Realität


KI-Videogeneratoren werden oft als das nächste große Ding in der Medienproduktion gefeiert, ein Werkzeug, das auf Knopfdruck beeindruckende Filmszenen erschaffen kann. Doch wie gut ist die Technologie wirklich, wenn man sie jenseits der polierten Demo-Videos betrachtet? André Kramer, Experte von der c’t, hat fünf aktuelle Modelle – Sora von OpenAI, Firefly von Adobe, Kling AI, Luma AI und Runway ML – auf den Prüfstand gestellt. Sein Fazit: Die Realität sieht noch deutlich anders aus als der Hype. Die Vorstellung von langen, perfekten Videos, die einfach so entstehen, entspricht nicht dem aktuellen Stand.


Eigenwerbung Fachdienst heise KI PRO

Eigenwerbung Fachdienst heise KI PRO

Wer auf Hollywood-reife Blockbuster per Texteingabe hofft, wird enttäuscht. Die von Kramer getesteten Modelle erzeugen derzeit lediglich kurze Clips. „Also die Videogeneratoren, die es auf dem Markt gibt und die ich getestet habe, erzeugen fünf Sekunden lange Videoclips“, erklärt Kramer. Einige schaffen zehn Sekunden, doch das sei oft nur eine Verlängerung des Bestehenden. Die Ursache liegt in der Funktionsweise der Modelle, die ähnlich wie Bildgeneratoren arbeiten, aber das gesamte Video als Einheit betrachten. Ein weiterer wichtiger Punkt: „Es wird überhaupt kein Audio mit erzeugt. Also es sind wirklich Stummfilme.“

Die Animation von Standbildern zu Videos bringt zudem eigene Herausforderungen mit sich. Während ein Bild nur stimmig aussehen muss, erfordert ein Video Kontinuität – eine große Hürde für die KI. Kramer nennt Beispiele: „Wenn ein Kind einen Burger isst, dann muss ein Stück abgebissen sein.“ Oder bei einem Hubschrauber, der ein Gebäude umfliegt, darf sich das Gebäude nicht verformen. Probleme mit Geometrie und Physik sind häufig. Auch die „Kinderkrankheiten“ der Bildgeneratoren, wie die Darstellung von Händen oder die korrekte Anzahl von Fingern, finden sich in den Videos wieder. Kramer berichtet von einer Hochzeitsszene, in der Finger und Hände, „einfach all over the place sind“. Selbst bei Action-Szenen können kuriose Ergebnisse entstehen: „In drei Fällen hatte ich einen Kampfjet mit Hubschrauberflügeln.“

Im Test zeigten sich deutliche Qualitätsunterschiede zwischen den fünf Kandidaten. „Kling AI und OpenAIs Sora haben bei weitem die besten Resultate abgeliefert“, fasst Kramer zusammen. Adobe Firefly, Luma und das ältere Runway-Modell im Test fielen „sehr weit dahinter zurück“ – wobei von Runway inzwischen bereits ein neueres Modell verfügbar ist, das im Test noch nicht berücksichtigt werden konnte. Interessant sei die Herangehensweise von Runway, deren Clips oft sehr ruhig und fast in Zeitlupe wirkten. Diese „kluge Selbstbeschränkung“ führe zwar zu weniger Dynamik, aber auch zu weniger Fehlern und mache die Ergebnisse durchaus kommerziell nutzbar, etwa für ästhetische Aufnahmen von Rauch oder Wasser.

Die Qualität des Ergebnisses hängt darüber hinaus stark vom Prompt ab. Kramers Ratschlag: „Nicht zu kompliziert denken.“ Je komplexer die gewünschte Szene, desto größer die Wahrscheinlichkeit, dass die KI scheitert oder unerwartete Elemente vermischt. Text in Bildern ist ebenfalls schwierig. Am besten funktionieren Klischees und wiederkehrende Motive, insbesondere solche mit angloamerikanischem Hintergrund. Szenen wie ein Motel in der Wüste gelingen eher als spezifisch europäische oder skandinavische Ästhetiken. Dies zeige, dass die Modelle „bekanntes Reproduzieren“ und in ihrer Kreativität noch begrenzt sind.


KI-Update

KI-Update

Wie intelligent ist Künstliche Intelligenz eigentlich? Welche Folgen hat generative KI für unsere Arbeit, unsere Freizeit und die Gesellschaft? Im „KI-Update“ von Heise bringen wir Euch gemeinsam mit The Decoder werktäglich Updates zu den wichtigsten KI-Entwicklungen. Freitags beleuchten wir mit Experten die unterschiedlichen Aspekte der KI-Revolution.

Für den professionellen Einsatz in der Filmproduktion sind die Generatoren laut Kramer derzeit nur bedingt geeignet. Für komplexe Szenen oder gar „Reshoots“ nach Testvorführungen seien sie noch nicht präzise genug. Mögliche Nischen seien etwa die Animation eines Gebäudefotos, wenn keine echte Aufnahme verfügbar ist, oder Workarounds bei Zeitdruck. Kramer sieht die aktuelle Qualität oft noch als „unfreiwillig komisch“.

Die einfache Bedienung wirft zudem ethische Fragen auf, insbesondere im Hinblick auf Deepfakes. Die getesteten kommerziellen Dienste versuchen dem entgegenzuwirken. „Diese Modelle […] kommen in der Regel entweder aus den USA oder wie Kling AI aus China und da ist systembedingt der Einsatz für pornografische Zwecke ausgeschlossen“, erklärt Kramer. Auch die Generierung von Material mit Prominenten oder Politikern werde meist blockiert. Ein weiteres sensibles Thema ist das Trainingsmaterial und das Recht am Bild. Adobe setze auf eigene, lizenzierte Inhalte aus seinem Stock-Dienst, was die generierbaren Motive einschränke, aber rechtliche Sicherheit biete. Andere Dienste nutzten das gesamte Internet, was zwar mehr Vielfalt ermögliche, aber auch zu Klagen wegen Urheberrechtsverletzungen führe. Das generierte Material selbst sei in der Regel urheberrechtsfrei, da die „kreative Schöpfungshöhe“ durch einen Prompt nicht erreicht werde.

Insgesamt zeigen die getesteten KI-Videogeneratoren eine faszinierende, aber noch unreife Technologie. Die Entwicklung schreitet rasant voran, neue, leistungsfähige Modelle erscheinen in schneller Abfolge, oft ganz überraschend. Neben der reinen Generierung von Clips sieht Kramer Potenzial in pragmatischeren Anwendungen wie der automatischen Videoübersetzung mit Lippensynchronisation oder der Animation von Charakteren per Video-Input. Es bleibt abzuwarten, welche Fortschritte die nächste Generation bringen wird.


(igr)



Source link

Künstliche Intelligenz

Natur, leuchtende Kontraste und urbane Dramaturgie: Die Bilder der Woche 38


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Neben stillen Momentaufnahmen der Natur gibt es auch monumentale Architekturbilder zu sehen. Diese Woche reicht die fotografische Reise von einem filigranen Pilzpaar im Wald über den leuchtenden Vollmond an der Elbphilharmonie hin zu einem lebhaften Hundeporträt inmitten blühender Heide. Mal zeigt sich die Natur im Detail, etwa in der Struktur eines Wirsingblattes oder im weichen Fließen eines Wasserfalls, mal in markanten Nahaufnahmen, wie dem intensiven Blick einer Pute. Der Bogen schließt sich mit einer weiten Strandszene im warmen Abendlicht, die zeigt, wie unterschiedlich sich Stimmungen und Perspektiven einfangen lassen.



Just the two of us

(Bild: feddy)

Zwei Pilze ragen auf ihren filigranen, dunklen Stielen aus dem Waldboden hervor und werden von einem sanften Bokeh-Hintergrund in warmen Herbsttönen umrahmt. Ihre leicht ausgefransten Lamellen und die feinen Spinnweben verleihen dem Motiv einen etwas morbiden Touch. Zwischen den trockenen Herbstblättern wirkt das Bild von feddy wie ein stiller Moment der Naturbeobachtung.



Es hat geklappt

(Bild: Nalois)

Über der markanten Silhouette der Elbphilharmonie erhebt sich ein roter Vollmond, der eine eindrucksvolle Bilddramaturgie schafft. Der Fotograf kombiniert hier technisches Fachwissen mit perfektem Timing. Die geschwungene Dachlandschaft des Konzerthauses bildet einen Kontrast zur runden Form des Mondes am nächtlichen Himmel. Warm leuchtende Fenster durchbrechen die dunkle Fassade und setzen einen lebendigen Akzent. Die Aufnahme bringt eine architektonische Ikone mit einem seltenen Naturschauspiel in einer atmosphärisch dichten Komposition zusammen, die sowohl Ruhe als auch Erhabenheit ausstrahlt.

„Wie viele Fotografen habe ich meinen ursprünglichen Standort am Fischmarkt, St. Pauli verlassen und bin auf den Landungsbrücken in Richtung Elphi gegangen. Ich habe für das Foto zweimal meinen Standpunkt verändert, um den Abstand zwischen Mond und Elphi zu reduzieren“, berichtet Galeriefotograf Nalois.



Heideshooting mit Elly

(Bild: Peter-Engel-Photographie)

Ein kleiner Münsterländer sitzt inmitten der farbenprächtigen Heide und blickt aufmerksam in die Kamera. Das warme Licht im Hintergrund und die violettfarbenen Blüten im Vordergrund schaffen eine harmonische Stimmung. Das Tier wirkt entspannt und freundlich, sein glänzendes Fell hebt sich kontrastreich von der Umgebung ab. Durch die geringe Tiefenschärfe liegt der Fokus klar auf dem Hund, wodurch dieses Tierporträt von Peter-Engel-Photographie besonders ausdrucksstark wirkt.



Wirsing 2 – Innen

(Bild: khan)

Feine Wassertröpfchen liegen auf den Adern eines Wirsingblattes und reflektieren das Licht wie kleine Glaskugeln. Die kräftige Struktur des Blattwerks mit seinen Adern und Falten verleiht dem Motiv eine interessante Textur und Tiefe. Die Kombination aus sattem Grün und den glänzenden Tropfen vermittelt Frische und Natürlichkeit. Diese Makroaufnahme von Galeriefotograf khan bringt die Pflanzenwelt dem Betrachter besonders nah.



Wasserfall

(Bild: camera66)

Wasserströme laufen in mehreren Bahnen über dunkle Felsen hinab. Durch die lange Belichtungszeit, die Fotograf camera66 hier eingesetzt hat, wirkt das Wasser weich und beinahe wie Nebel. Die Kontraste zwischen den hellen Wasserflächen und den dunklen Steinen verleihen der Aufnahme Tiefe. Kleine Lichtreflexe setzen Akzente und lockern die Struktur zusätzlich auf.



Bronzepute

(Bild: Rolf Fries)

Dieses intensive Porträt von Galeriefotograf Rolf Fries zeigt den Kopf einer Pute in detailreicher Nahaufnahme. Die außergewöhnliche Textur ihrer Haut mit kräftigen Rot- und Blautönen bildet einen starken Kontrast zu ihrem dunklen Federkleid. Der warme Hintergrund verleiht dem Motiv zusätzliche Tiefe und hebt die markante Struktur des Tieres hervor. Die enge Bildkomposition im Hochformat betont die faszinierende, fast skulpturale Wirkung des Kopfes zusätzlich.



Abendstimmung

(Bild: Uschi Hermann)

Während der Tag zur Neige geht, kommt am Horizont der Himmel in warmen Orange- und Violetttönen mit dem ruhigen Meer zusammen. An diesem weitläufigen Strand stehen drei Personen und wirken im Kontrast zu dessen Weite recht klein. Ihre Silhouetten lassen Raum für Geschichten: Begegnung, Stille oder ein Abschied im Licht des Sonnenuntergangs. Die Szenerie vermittelt eine Ruhe, die sich über das gesamte Bild legt – fast so, als hielte die Zeit für einen Augenblick inne.

Galeriefotografin Uschi Hermann kommentiert ihre Aufnahme: „Dieses Foto habe ich an einem ruhigen Abend am Strand von Sankt Peter-Ording gemacht. Das stimmungsvolle Licht und die endlose Weite sind faszinierend, einfach, zeitlos schön.“

Die Bilder der Woche im Überblick:


Samstag: Just the two of us (Bild:

feddy

)


Das Titelbild der Ausgabe 04 2025 des Foto-Magazins c't Fotografie

Das Titelbild der Ausgabe 04 2025 des Foto-Magazins c't Fotografie


(caru)



Source link

Weiterlesen

Künstliche Intelligenz

Grenzenlos wachsen: Wie IT-Riesen Wirtschaft und Umwelt zerstören | c’t uplink


Mehr Halbleiter, mehr Rechenzentren, mehr Leistung, mehr KI, … Eine Handvoll US-Unternehmen, die sogenannten „Magnificent Seven“, beherrscht weite Teile der globalen IT-Infrastruktur. Die Firmen kennen anscheinend nur eine Devise: wachsen. Doch dadurch wachsen auch Energie-, Wasser-, Flächen- und Ressourcenbedarf.


Logo mit dem Schriftzug "c't uplink – der Podcast aus Nerdistan"

Logo mit dem Schriftzug "c't uplink – der Podcast aus Nerdistan"

Den wöchentlichen c’t-Podcast c’t uplink gibt es …

Als „Magnificent Seven“ (M7) gelten sieben Tech-Unternehmen aus den USA: Amazon, Alphabet (dazu gehört Google), Apple, Meta (Facebook, Instagram, Whatsapp), Microsoft, Nvidia und außerdem das Firmengeflecht von Elon Musk um Tesla und SpaceX. Diese sieben haben zusammen mittlerweile einen Marktwert von rund 18 Billionen Euro, was dem Bruttoinlandsprodukt der gesamten EU entspricht. Fast jedes der Unternehmen hat in seinem Bereich eine marktbeherrschende Stellung erreicht, kann Preise und Bedingungen diktieren.

Die c’t-Redakteurinnen Andrea Trinkwalder und Greta Friedrich sowie der c’t-Redakteur Hartmut Gieselmann haben recherchiert, wie die M7 auf Menschen, Umwelt und Wirtschaft wirken. Im c’t uplink sprechen sie darüber, was der KI-Hype in diesem Kontext bedeutet und welche Initiativen es bereits gibt, sich vom Einfluss der großen Tech-Firmen zu lösen.

Zu Gast im Studio: Hartmut Gieselmann, Andrea Trinkwalder
Host: Greta Friedrich
Produktion: Ralf Taschke

Mehr dazu, wie große Tech-Firmen global wirken und welche Initiativen ihren Einfluss begrenzen wollen, lesen Sie in der c’t-Ausgabe 20/2025, auf ct.de sowie in der c’t-App für iOS und Android. Die Ausgabe 20/2025 gibt es ab dem 19. September 2025 am Kiosk.

In unserem WhatsApp-Kanal sortieren Torsten und Jan aus der Chefredaktion das Geschehen in der IT-Welt, fassen das Wichtigste zusammen und werfen einen Blick auf das, was unsere Kollegen gerade so vorbereiten.

c’t Magazin
c’t auf Mastodon
c’t auf Instagram
c’t auf Facebook
c’t auf Bluesky
c’t auf Threads
► c’t auf Papier: überall, wo es Zeitschriften gibt!


(gref)





Source link

Weiterlesen

Künstliche Intelligenz

Universum to go: KI-Software emuliert kosmische Physik auf Notebooks


Ein internationales Team von Physikern hat eine Software namens Effort.jl veröffentlicht, die das Spielfeld der computergestützten Kosmologie verändern könnte. Die Kernfunktion des Programms: Simulationen der Entwicklung des Universums, die bislang monatelange Rechenzeit auf Cluster-Systemen wie dem SuperMUC-NG am Leibniz-Rechenzentrum in Garching beanspruchten, laufen damit in wenigen Minuten auf einem gewöhnlichen Notebook ab.

Ihre Ergebnisse hat die Gruppe um den Physiker Marco Bonici von der University of Waterloo im kanadischen Ontario im Fachmagazin Journal of Cosmology and Astroparticle Physics publiziert. Die Arbeit entstand in einer Kooperation, an der auch das Istituto Nazionale di Astrofisica (INAF) in Italien beteiligt war.

Bei Effort.jl handelt es sich um einen sogenannten Emulator. Stellen sie sich vor, sie wollen nicht die komplette, komplexe Physik des Kosmos mit all ihren unzähligen Interaktionen von Grund auf berechnen. Stattdessen trainieren sie ein Modell darauf, das Ergebnis dieser Berechnungen bei gegebenen Anfangsbedingungen möglichst exakt vorherzusagen.

Genau das macht die Software. Sie imitiert das Verhalten eines der etabliertesten Modelle der modernen Kosmologie, der „Effektiven Feldtheorie der großräumigen Strukturen“ (EFTofLSS). Dieses beschreibt, wie sich Galaxien und Dunkle Materie zu einem riesigen, fadenartigen Netz anordnen, das wir als das kosmische Netz kennen.

Das Herzstück des Emulators ist ein neuronales Netz. Der entscheidende Kunstgriff des Teams war es jedoch, diesem Netz vorab grundlegendes physikalisches Wissen mitzugeben. Die Software lernt also nicht bei null, sondern weiß bereits, wie sich die Ergebnisse verändern, wenn kosmologische Parameter wie die Menge an Dunkler Energie justiert werden. Dieser hybride Ansatz reduziert den Trainingsaufwand und die benötigte Rechenleistung drastisch.

Entwickler dürften aufhorchen, wenn sie hören, dass das Werkzeug in der relativ jungen Programmiersprache Julia geschrieben wurde. Julia ist speziell für hochperformante wissenschaftliche und numerische Berechnungen konzipiert. Der gesamte Quellcode von Effort.jl ist zudem auf Github frei zugänglich.

Der praktische Nutzen ist immens. Die Astrophysik steht vor einer Datenflut durch neue Instrumente wie das Weltraumteleskop Euclid der Europäischen Raumfahrtagentur ESA oder das Dark Energy Spectroscopic Instrument (DESI) in den USA. Die Analyse dieser Petabyte an Informationen mit traditionellen Methoden wäre extrem zeit- und kostenintensiv. Effort.jl positioniert sich hier als ein entscheidendes Werkzeug, um diese Analysen effizienter und für eine breitere wissenschaftliche Gemeinschaft zugänglich zu machen.

So vielversprechend der Ansatz ist, hat er doch klare Grenzen. Ein Emulator ist immer eine Annäherung an die Realität, keine exakte Abbildung. Er kann nur innerhalb der Parameter verlässliche Ergebnisse liefern, für die er trainiert wurde.

Das System wird also keine völlig neuen physikalischen Phänomene entdecken, die nicht bereits im zugrundeliegenden EFTofLSS-Modell enthalten sind. Seine Stärke liegt in der extrem schnellen Überprüfung von Hypothesen innerhalb eines bekannten Rahmens. Für die Grundlagenforschung, die über die Grenzen der etablierten Modelle hinausblickt, bleiben Supercomputer unverzichtbar.

Dieser Beitrag ist zuerst auf t3n.de erschienen.


(jle)



Source link

Weiterlesen

Beliebt