Künstliche Intelligenz
Googles Veo 3 erstellt geniale Videos – aber die Untertitel sind völlig verrückt
Nachdem Google Ende Mai sein neuestes KI-Modell zur Videogenerierung vorgestellt hatte, stürzten sich Kreative darauf, um es auf Herz und Nieren zu testen. Nur wenige Monate nach der Verfügbarmachung seines Vorgängers ermöglicht Veo 3 Nutzern erstmals die Generierung von Klängen und Dialogen, was zu einer Flut hyperrealistischer maximal achtsekündiger Clips führte, die dann zu Werbespots, ASMR-Videos, imaginären Filmtrailern oder humorvollen Fake-Straßeninterviews zusammengeschnitten wurden. Der Oscar-nominierte Regisseur Darren Aronofsky nutzte das Tool gar, um einen Kurzfilm mit dem Titel „Ancestra“ zu erstellen. Während einer Google-Pressekonferenz verglich Demis Hassabis, CEO der Google-KI-Tochter DeepMind, diesen Sprung nach vorne mit dem „Ende der Stummfilmära in der Videogenierung“.
Einige Nutzer stellten jedoch schnell fest, dass das Tool keineswegs perfekt war und in mancher Hinsicht nicht wie erwartet arbeitete. Denn: Wenn Veo 3 Clips mit Dialogen generiert, fügt es oft unsinnige, verstümmelte Untertitel hinzu, selbst wenn in den Eingabeaufforderungen ausdrücklich angegeben wurde, das zu unterlassen. Die Nonsens-Untertitel zu entfernen, ist aber nicht einfach – und auch nicht billig. Nutzer sind nämlich gezwungen, Clips neu generieren zu lassen (was sie mehr Geld kostet) – in der Hoffnung, dass es nicht wieder passiert. Alternativ müssen sie externe Tools zum Entfernen von Untertiteln verwenden oder ihre Videos störend zuschneiden, um die Untertitel vollständig zu entfernen.
Google seit mehr als einem Monat informiert
Josh Woodward, Vizepräsident von Google Labs und Gemini, veröffentlichte schon am 9. Juni auf X den Hinweis, dass Google Korrekturmaßnahmen ergriffen habe, um die Ausgabe der unsinnigen Untertitel zu reduzieren. Aber auch über einen Monat später melden Nutzer immer noch Probleme damit im offiziellen Discord-Kanal von Google Labs, ohne dass sie Hilfe bekommen. Das zeigt, wie offenkundig schwierig es sein kann, Fehler in großen KI-Modellen, Bild- und Videogenratoren zu beheben.
Wie seine Vorgänger ist Veo 3 für zahlende Mitglieder größerer Google-Abonnementstufen verfügbar, die nicht billig sind: Es geht bei 249,99 US-Dollar pro Monat erst los. Um einen achtsekündigen Clip zu erstellen, geben Nutzer einen Prompt in Googles KI-Filmtool Flow, in Gemini oder andere Google-KI-Plattformen ein, der die Szene beschreibt, die sie erstellen möchten. Doch das Abo allein reicht nicht: Jede Veo-3-Videogenerierung kostet mindestens 20 KI-Credits, die 25 US-Dollar pro 2.500 Credits kosten. Mona Weiss, Kreativdirektorin in der Werbebranche, erzählt, dass das Neugenerieren von Szenen, um die quatschigen Untertitel loszuwerden, schnell teuer wird. „Wenn man eine Szene mit Dialogen erstellt, haben bis zu 40 Prozent der Ausgaben diese unverständlichen Untertitel, die sie dann unbrauchbar machen“, sagt sie. „Man verbrennt also Geld, um eine Szene zu erhalten, die einem gefällt, aber dann kann man sie letztlich nicht einmal verwenden.“
Credits futsch, teures Abo zahlt man obendrein
Als Weiss das Problem über den Discord-Kanal an Google Labs meldete, in der Hoffnung, eine Rückerstattung für ihre verschwendeten Credits zu erhalten, verwies das dortige Team sie nur an den offiziellen Support des Unternehmens. Dieser bot ihr nur eine Rückerstattung der Kosten für Veo 3 an, jedoch nicht für die Credits. Weiss lehnte das ab, da sie damit den Zugriff auf die Videogenerierung vollständig verloren hätte. Das Discord-Supportteam von Google Labs räumte ein, dass unerwünschte Untertitel durch Szenen mit Sprache ausgelöst werden können. Man sei sich des Problems bewusst und arbeite daran.
Aber warum besteht Veo 3 darauf, die Quatsch-Untertitel hinzuzufügen, und warum scheint es so schwierig zu sein, das Problem zu lösen? Das liegt wahrscheinlich daran, wie konkret das Modell trainiert wurde. Obwohl Google diese Informationen nicht veröffentlicht, enthalten die Trainingsdaten wahrscheinlich YouTube-Videos, Clips aus Vlogs und Gaming-Kanälen sowie deren TikTok-Edits, von denen viele mit Untertiteln versehen sind. Diese eingebetteten Untertitel sind Teil der Videobilder und keine separaten Textspuren, die darüber gelegt werden. Daher ist es schwierig, sie zu entfernen, bevor sie für das Training verwendet werden können, sagt Shuo Niu, Assistenzprofessor an der Clark University in Massachusetts, der sich mit Videoplattformen und KI beschäftigt.
Unreifes Produkt auf den Markt geworfen?
„Das Text-zu-Video-Modell wird mithilfe von Reinforcement Learning trainiert, um Inhalte zu produzieren, die von Menschen erstellte Videos imitieren. Wenn solche Videos Untertitel enthalten, kann das Modell lernen, dass die Einbindung von Untertiteln die Ähnlichkeit mit von Menschen erstellten Inhalten erhöht“, sagt der Forscher. „Wir arbeiten kontinuierlich daran, die Videogenerierung zu verbessern, insbesondere in Bezug auf Text, natürlich klingende Sprache und perfekt synchronisierten Ton“, gab ein Google-Sprecher an. „Wir empfehlen Nutzern, ihren Prompt erneut zu versuchen, wenn sie Unstimmigkeiten feststellen, und uns über die Daumen-hoch/Daumen-herunter-Option ein Feedback zu geben.“ Warum das Modell Anweisungen wie „keine Untertitel“ oft ignoriert, liegt unterdessen wohl daran, dass negative Eingaben (die einem generativen KI-Modell sagen, etwas nicht zu tun) in der Regel weniger effektiv sind als positive Prompts. Davon geht auch Tuhin Chakrabarty, Assistenzprofessor an der Stony Brook University, der sich mit KI-Systemen beschäftigt, aus.
Um das Problem zu beheben, müsste Google letztlich jedes Frame jedes Videos, mit dem Veo 3 trainiert wurde, überprüfen und diejenigen mit Untertiteln entweder entfernen oder neu kennzeichnen, bevor das Modell neu trainiert wird. Das sei ein Unterfangen, das mindestens Wochen dauern würde, sagt Chakrabarty. Katerina Cizek, Dokumentarfilmerin und künstlerische Leiterin am MIT Open Documentary Lab, meint, dass dieses Problem beispielhaft für die Bereitschaft von Google sei, Produkte auf den Markt zu werfen, bevor sie vollständig ausgereift sind. „Google brauchte hier einen Erfolg“, sagt sie. „Die mussten die Ersten sein, die ein Tool auf den Markt bringen, das lippensynchronen Ton mit Video generiert. Das war ihnen wichtiger als die Behebung des Problems mit den Untertiteln.“
Dieser Beitrag ist zuerst bei t3n.de erschienen.
(jle)
Künstliche Intelligenz
iX-Workshop: Wireshark Deep Dive – Netzwerkprobleme gezielt lösen
Im Workshop Wireshark für Fortgeschrittene tauchen Admins und Entwickler noch tiefer in die Welt der Netzwerkanalyse ein. Anhand echter, anonymisierter Fallbeispielen lernen die Teilnehmenden, wie sie typische Fehler und Sicherheitsprobleme in Protokollen wie IP, Ethernet, ICMP, HTTP oder UDP aufspüren. Auch TCP-Handshakes werden unter die Lupe genommen – inklusive Performance-Tuning bei schleppenden Verbindungen. Weitere Themen: knifflige SMB-Verbindungen, langsame Trading-Apps und Probleme in großen Netzwerken (WAN).
Hands-on mit realen Szenarien
Ein besonderer Schwerpunkt liegt auf der praktischen Anwendung: Die Teilnehmenden extrahieren Nutzdaten mit eigenen Skripten, setzen erweiterte Capture-Filter gezielt ein und analysieren verschlüsselten Datenverkehr – etwa bei TLS-Kommunikation mit Out-of-Order-Paketen. Zur Unterstützung kommen neben Wireshark auch webbasierte Tools wie der PacketSafari Analyzer und AI Shark zum Einsatz.
Der Workshop bietet ein hohes Maß an Interaktivität und die Möglichkeit, eigene PCAP-Dateien zur Analyse mitzubringen. Ergänzt wird das Programm durch einen kurzen Einstufungstest sowie eine Wiederholung grundlegender Konzepte der Netzwerkanalyse – falls erforderlich.
August 27.08. – 28.08.2025 |
Online-Workshop, 09:00 – 17:00 Uhr 10 % Frühbucher-Rabatt bis zum 29. Jul. 2025 |
November 12.11. – 13.11.2025 |
Online-Workshop, 09:00 – 17:00 Uhr 10 % Frühbucher-Rabatt bis zum 14. Okt. 2025 |
Ihr Trainer Oliver Ripka ist ein erfahrener Sicherheitsberater und Trainer bei Söldner Consult. Als Experte für Netzwerksicherheit liegen seine fachlichen Schwerpunkte in den Bereichen offensive Sicherheit und Netzwerkanalyse.
Der Workshop richtet sich an Administratoren und Entwickler, die bereits Grundkenntnisse in Wireshark und Netzwerkanalyse besitzen und diese gezielt ausbauen möchten. Die Teilnehmerzahl ist begrenzt, um einen intensiven Austausch mit dem Trainer und der Gruppe zu gewährleisten.
(ilk)
Künstliche Intelligenz
MacBook-Trackpad: Genau genug, um eine Waage zu sein
Apples in MacBook Pro und MacBook Air verbautes Trackpad hat eine überraschende Zusatzfunktion: Die verbaute Sensorik lässt sich auch als Waage nutzen. Eine entsprechende App namens TrackWeight hat der Entwickler Krish Shah auf GitHub veröffentlicht. Die Genauigkeit liegt dabei im Grammbereich, teilweise auch noch darunter. Allerdings muss zur Abfrage auf eine private API zugegriffen werden.
Solid-State-Technik samt Sensorik
Die Trackpads in MacBooks setzen schon seit Jahren auf Solid-State-Technik: Die performanten Cursor-Steuergeräte sind mechanisch unbeweglich und erfassen Bewegung wie auch Druck mittels integrierter Sensoren. Klicks werden wiederum mittels Vibrationsmotor (Tapic Engine) simuliert – in der Praxis fühlt sich das sehr natürlich an. Lustigerweise liefert das System bereits Gramm-Angaben: Der ausgeübte Druck wird intern entsprechend vermittelt.
Shah verwendet zum Zugriff auf die Daten die Bibliothek OpenMultitouchSupport des Entwicklers Takuto Nakamura. Dieser macht alle notwendigen Daten zugänglich, die Apple offiziell nicht ausgibt. Gänzlich bequem ist die Messung eines Gewichts allerdings nicht: Das Trackpad kann den Wert nur ermitteln, wenn ein Finger (oder ein anderes Objekt mit elektrischer Kapazität) aufgelegt ist.
Finger muss aufliegen, da sonst nicht gelesen wird
Das heißt, dass man diesen sehr sanft (quasi schwebend) auflegen muss. Hinzu kommt, dass man das zu wiegende Objekt so platzieren muss, dass es den Fingerkontakt nicht stört. Schließlich kann man Metallobjekte nicht problemlos wiegen, da diese als Fingerberührung erkannt werden können – Shah empfiehlt, hier ein Stück Papier oder ein leichtes Tuch dazwischen zu platzieren.
Shah hat für TrackWeight verschiedene Kalibrierungsprozesse vorgenommen, die für ein genaues Messergebnis sorgen sollen – solange obige Einschränkungen beachtet werden. Ob man ein MacBook nun aber wirklich als Küchenwaagenersatz nutzen will, muss jeder User für sich entscheiden. Die App, die explizit nur für „Experimental- und Bildungszwecke“ gedacht ist, zeigt aber, was mit modernen Sensoren alles möglich ist. Schade ist nur, dass es Zugriff auf private APIs braucht. OpenMultitouchSupport liefert viele spannende Infos rund ums Trackpad.
(bsc)
Künstliche Intelligenz
Nerd-Haushalt: Das c’t-Sonderheft zum Thema Smart Home
Mittlerweile gibt es viele sogenannte „smarte“ Haushaltshelfer, die nicht mit leeren Werbeversprechen daherkommen, sondern nützliche Zusatzfunktionen bieten. Smarte Saugroboter, Kochhilfen, Kaffeeautomaten oder Türschlösser bieten einige Vorteile. Der eine oder andere Nutzen entsteht jedoch erst, wenn man die Geräte kombiniert verwendet. Das ist jedoch nicht so einfach, denn damit ein „Smart Home“ funktioniert, muss vor allem der Nutzer „smart“ sein.
Thermomix, Türschlösser und mehr
In diesem c’t-Sonderheft werden Kochhilfen, Türschlösser, Saugroboter und vieles mehr vorgestellt. Mehrere Artikel helfen Ihnen bei der Wahl eines Smart-Home-Systems, etwa von Homematic IP, Shelly oder Home Assistant, und informieren über Matter. Außerdem erhalten Sie Bastelvorschläge für eine Überwachungskamera mit Raspi sowie zu MQTT.
Des Weiteren erfahren Sie, was der neue Thermomix TM7 und der Bosch Cookit leisten können, wie ein Kaffeevollautomat von der App-Steuerung profitiert und wie ein smarter Grill mit Temperatur- und Gasstandkontrolle Sie unterstützen kann. Apps können Ihnen dabei helfen, Ihr individuelles Kochbuch aus verschiedenen Quellen zusammenzustellen – von Omas handgeschriebenen Rezepten über Kochbücher bis hin zu Internetquellen. Neben der automatischen Türöffnung können Sie mit smarten Schlössern auch temporäre Codes für Haushaltshilfen vergeben und das Problem verlorener Schlüssel lösen.

Staubsauger, Mähroboter und Luftentfeuchter
Luftentfeuchter sollen Schimmel vorbeugen, während automatische Pflanzensensoren Gießmuffel mit schwarzem Daumen unterstützen können. Weitere Artikel werfen einen Blick auf Staubsaugerroboter aller Klassen, die beispielsweise über einen Wasseranschluss oder eine Türschwellenautomatik verfügen. Das Sonderheft informiert auch über Rasenmähroboter mit und ohne Begrenzungsdraht.
Wer mehrere solcher Geräte samt Sensoren und weiterer Helferlein miteinander arbeiten lassen möchte, kommt kaum um ein komplexeres Smart-Home-System herum. Ein gesonderter Artikel hilft bei der Entscheidung zwischen den Systemen von Bosch, Homematic IP und Shelly. Ein weiterer Artikel führt in das mächtige Home Assistant ein. Zudem geben wir Ihnen Tipps zu KNX und Zigbee2MQTT an die Hand und diskutieren, welche Verbesserungen der viel erwartete Verbindungsstandard Matter mit sich bringt.
Das Sonderheft inspiriert Sie schließlich auch noch zum Basteln. Bauen Sie beispielsweise eine Taupunktlüftungsanlage oder eine Überwachungskamera mit einem Raspberry Pi. Oder lassen Sie MQTT, Node-Red, Influx und Grafana in Kombination arbeiten.
Jetzt bestellen
Das Sonderheft „c’t Nerd-Haushalt“ gibt es sowohl auf Papier als auch in digitaler Form. Wer die Print-Ausgabe für 14,90 Euro bis einschließlich 26.07.2025 im Heise Shop bestellt, zahlt keine Versandkosten. Hier erhalten Sie die digitale Ausgabe ab sofort für 12,99 Euro im heise Shop als PDF.
Ebenfalls im heise Shop finden Sie das gedruckte Heft und die digitale Ausgabe als Bundle. Sie erhalten das Heft und PDF für 19,90 € statt 32,90 Euro. Das Superbundle besteht dieses Mal aus dem Heft, dem PDF und dem Buch „Ihr Smart Home mit Home Assistant“ vom mitp Verlag für insgesamt 41,90 € statt 54,89 €.
(jow)
-
Datenschutz & Sicherheitvor 1 Monat
Geschichten aus dem DSC-Beirat: Einreisebeschränkungen und Zugriffsschranken
-
Online Marketing & SEOvor 1 Monat
TikTok trackt CO₂ von Ads – und Mitarbeitende intern mit Ratings
-
Apps & Mobile Entwicklungvor 1 Monat
Metal Gear Solid Δ: Snake Eater: Ein Multiplayer-Modus für Fans von Versteckenspielen
-
Digital Business & Startupsvor 4 Wochen
80 % günstiger dank KI – Startup vereinfacht Klinikstudien: Pitchdeck hier
-
UX/UI & Webdesignvor 1 Monat
Philip Bürli › PAGE online
-
Apps & Mobile Entwicklungvor 4 Wochen
Patentstreit: Western Digital muss 1 US-Dollar Schadenersatz zahlen
-
Social Mediavor 1 Monat
LinkedIn Feature-Update 2025: Aktuelle Neuigkeiten
-
Social Mediavor 1 Monat
Aktuelle Trends, Studien und Statistiken