Künstliche Intelligenz

Volumetrische Videos nehmen eine wichtige Hürde auf dem Weg zum Mainstream


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Volumetrische Videos zeigen Menschen und Objekte als dreidimensionale Körper, die sich aus frei wählbaren Perspektiven betrachten lassen. Dank Fortschritten bei der Optimierung und Übertragung von dynamischen Gaussian Splats lassen sie sich nun in guter Qualität auf mobile Geräte und sogar auf autarken VR-Brillen streamen, eine ausreichend schnelle und stabile Internetverbindung vorausgesetzt.

Weiterlesen nach der Anzeige

Das Start-up Gracia AI gehört zu den Vorreitern dieser Technologie und hat diesen Monat drei Demos veröffentlicht, anhand derer man das Streaming dynamischer Gaussian Splats ausprobieren kann. Dynamisch bedeutet hier, dass die Gaussian Splats eine zeitliche Abfolge und Bewegung abbilden und nicht nur eine Momentaufnahme.

Gaussian Splatting ist ein Verfahren zur 3D-Rekonstruktion und -Darstellung. Als Darstellungsansatz unterscheidet es sich grundlegend von klassischer 3D-Grafik. Statt Objekte aus Netzen verbundener Polygone, meist Dreiecken, aufzubauen, wird eine Szene als dichte Ansammlung kleiner, räumlich ausgedehnter Punkte beschrieben. Diese sogenannten Splats („Kleckse“) tragen jeweils Informationen wie Position, Größe, Ausrichtung, Farbe und Transparenz. In verdichteter Form ergeben diese visuellen Atome äußerst real wirkende Menschen, Objekte und Umgebungen.

Der Ansatz spielt seine Stärken vor allem bei komplexen und feinen Strukturen aus: Haare, Rauch oder andere schwer zu modellierende Formen lassen sich so deutlich natürlicher erfassen. Gleichzeitig entstehen weichere Übergänge und insgesamt stimmigere Bildeindrücke, die mit klassischen Polygonnetzen oft nur mit erheblichem Zusatzaufwand zu erreichen sind.

Gaussian Splatting war ursprünglich vor allem ein Verfahren zur 3D-Rekonstruktion der realen Welt. Statische Motive lassen sich mit handelsüblichen Kameras, etwa von Smartphones, vergleichsweise schnell und unkompliziert erfassen. Im Vergleich zu anderen Digitalisierungsverfahren wie Photogrammetrie und NeRFs sind die resultierenden Darstellungen deutlich effizienter und lassen sich inzwischen auch auf mobilen Geräten in Echtzeit rendern.

Inzwischen löst sich Gaussian Splatting zunehmend aus dem ursprünglichen Rekonstruktionskontext. Neben der KI-gestützten Generierung von 3D-Umgebungen (Googles Project Genie) und Anwendungen wie immersiver Telepräsenz (Apples verbesserte Personas) wird die Technik auch in der Filmproduktion und künftig wohl auch in der Spieleentwicklung eingesetzt.

Die Beispiele demonstrieren drei typische Anwendungsszenarien aus Unterhaltung, Handwerk und Medizin: eine vierminütige musikalische Performance sowie kurze Ausschnitte aus einer Rennrad-Reparaturanleitung und einer Physiotherapie-Sitzung. Für die korrekte Wiedergabe wird ein WebGPU-fähiger Browser wie Google Chrome benötigt. Die volumetrischen Videos starten ohne Vorinstallation einer App oder lange Pufferzeiten und ermöglichen es Nutzern, die Szenen aus beliebigen Blickwinkeln zu betrachten sowie heran- und herauszuzoomen.

In einer VR-Brille steigt der Mehrwert der volumetrischen Videos: Die Menschen und Objekte erscheinen im eigenen Wohnzimmer und entfalten eine physische Präsenz. Position und Größe lassen sich per Handbewegung anpassen: von riesig über lebensgroß bis zur Miniatur auf dem Tisch. Wir haben die Funktion im WebXR-fähigen Browser der Meta Quest 3 ausprobiert. Auch auf Apple Vision Pro funktioniert das Streaming, allerdings ohne Passthrough-Ansicht, da Apple diese Funktion für WebXR bislang nicht freigegeben hat.

Das Streaming dynamischer Gaussian Splats im Browser ist keine völlig neue Entwicklung: Das chinesische Start-up 4DV hat entsprechende Ansätze bereits 2025 demonstriert. Allerdings überfordern deren Szenen noch manche Geräte.

Weiterlesen nach der Anzeige

Gracia AI empfiehlt für seine Streaming-Technik eine Bandbreite von relativ hohen 80 Mbit/s, was einer Darstellung von 120.000 Splats pro Frame entspricht. Das ist laut CEO Georgii Vysotskii die maximale Bitrate der aktuellen Streaming-Konfiguration. In vielen Fällen genügt jedoch auch weniger Bandbreite, abhängig von der Komplexität der Szene. Entscheidend ist, wie viel Bewegung sie enthält.

Dynamisches Gaussian Splatting unterscheidet sich grundlegend von herkömmlichen Videos: Die dargestellten Inhalte bestehen nicht aus vorgerenderten Bildfolgen, sondern aus einer Ansammlung räumlich ausgedehnter 3D-Punkte, die auf dem lokalen Gerät in Echtzeit gerendert werden. Bei der von Gracia AI entwickelten proprietären Streaming-Technik werden keine fertigen Bilder übertragen, sondern Keyframes und Bewegungsdaten dieser 3D-Repräsentation.

Der Vorteil dieses Ansatzes liegt auf der Hand: Statt für jeden Zeitpunkt alle 3D-Punkte zu übertragen, werden nur die Veränderungen zwischen ihnen kodiert. Da sich viele Teile einer Szene über die Zeit hinweg kaum verändern, lässt sich so erheblich Bandbreite sparen. „Im Kern handelt es sich um einen Codec-ähnlichen Ansatz aus der 2D-Videotechnik, übertragen auf Gaussian Splatting“, erklärt Vysotskii. Gegenüber Download-Versionen der volumetrischen Videos ist die Datenrate mehr als zehnmal niedriger, bei nahezu gleicher visueller Qualität.

Die Produktionspipeline des Start-ups erlaubt es, je nach Anwendungsfall und Ausgabegerät unterschiedliche Bitraten und Qualitätsstufen festzulegen, etwa für Streaming oder Download sowie für mobile Geräte oder leistungsstärkere stationäre Rechner, die mehr Splats gleichzeitig rendern können. Speziell für das Streaming hat das Start-up auch eine Konfiguration mit 17 Mbit/s oder 15.000 dargestellten Splats pro Frame getestet, die sich für volumetrische Aufnahmen mit wenig Bewegung eignet. Diese Bitrate liegt im Bereich typischen 4K-Videostreamings.

Volumetrische Videos gelten seit Langem als ein Kernversprechen immersiver Technologien. Mit ihnen verbindet sich die Vision, dass Aufnahmen von Menschen, Objekten und Szenen nicht mehr auf Bildschirme und Leinwände beschränkt sind, sondern als frei im Raum platzierte, greifbar wirkende Hologramme erscheinen.

Ernstzunehmende Versuche in diese Richtung gab es bereits vor rund zehn Jahren, parallel zum Aufkommen der ersten massentauglichen VR-Brillen: Unternehmen wie Microsoft und Intel experimentierten mit volumetrischen Videoformaten und bauten dafür eigene Aufnahmestudios. Auch in Deutschland entstand mit Volucap in Babelsberg früh eine professionelle Infrastruktur für volumetrische Aufnahmen. Obwohl sie technisch beeindruckend waren, scheiterten die Ansätze bislang an hohen Produktionskosten, enormen Datenmengen und fehlenden Verbreitungswegen.

Volumetrische Videos sind keine Videos im klassischen Sinn, da sie nicht aus festen Bildfolgen bestehen, sondern aus dreidimensionalen Inhalten, die in Echtzeit gerendert werden. In diesem Punkte ähneln sie Videospielen.

Die meisten volumetrischen Videos basieren auf Aufnahmen realer Menschen, Objekte und Szenen. Ihre Interaktivität beschränkt sich in der Regel auf die Wahl der Perspektive und Entfernung. Bis jetzt entstanden solche Aufnahmen vorwiegend in spezialisierten Studios, in denen eine Vielzahl Kameras ein Motiv gleichzeitig aus verschiedenen Blickwinkeln erfassen. Für die Verarbeitung und Darstellung dieser Daten gibt es unterschiedliche Ansätze: Der neueste und vielversprechendste ist Gaussian Splatting.

Es gibt statische und dynamische Gaussian Splats, aber nur dynamische Gaussian Splats bilden eine zeitliche Abfolge und Bewegung ab und qualifizieren sich damit als volumetrische Videos. Zur klaren Abgrenzung werden statische Gaussian Splats auch als „3DGS“ und dynamische Gaussian Splats als „4DGS“ bezeichnet (Zeit als vierte Dimension).

Volumetrische Videos, ob auf Basis von Gaussian Splatting oder anderer 3D-Rekonstruktions- und Darstellungsverfahren, unterscheiden sich grundlegend von anderen immersiven Videoformaten, die deutlich weniger Freiheitsgrade bieten, dafür aber auch deutlich leichter herzustellen sind.

Stereoskopische Videos (von Apple auch „Spatial Videos“ genannt) bieten leicht versetzte Perspektiven für beide Augen und erzeugen so einen 3D-Eindruck, sind jedoch auf ein meist rechteckiges Bildformat und eine feste Perspektive beschränkt. Sogenannte 180- und 360-Grad-Videos erweitern zwar das Sichtfeld, ändern jedoch nichts an der festen Perspektive. Ansätze, die mithilfe von Künstlicher Intelligenz aus Videos neue Blickwinkel berechnen, sind derzeit noch stark eingeschränkt, da sie fehlende Bildinformationen „erfinden“ müssen. Volumetrische Videos gelten damit als die mächtigste Form immersiver Videoformate, sind jedoch nach wie vor aufwendig in der Produktion.

Künftig dürften volumetrische Videos vermehrt synthetisch entstehen, etwa durch KI-Generierung. Dabei könnten die Grenzen zwischen volumetrischem Video, interaktiven Formaten und Videospielen zunehmend verschwimmen.

Gaussian Splatting löst einige dieser Probleme. Zum einen senkt die Technik die Kosten der Erfassung deutlich. Laut Vysotskii sinkt die Zahl der benötigten Kameras stetig. Zudem seien hochwertige Aufnahmen zunehmend mit vergleichsweise günstigen Smartphone-Kameras oder GoPros möglich. Zum anderen verlagere sich die Produktion von professionellen Volumetrie-Studios mit Dutzenden Kameras hin zu portablen Kamerarigs, die ein kleineres Sichtfeld erfassen. In solchen Fällen reichen laut Vysotskii zehn iPhones.

Auch in puncto Technik und Erfassungsqualität hat sich das Verfahren deutlich weiterentwickelt. „Der Erfassungsprozess ist heute wesentlich weniger restriktiv als noch zu Zeiten klassischer Mesh-Erfassung. Gaussian Splatting ist deutlich flexibler bei der Kameraplatzierung, robuster gegenüber unterschiedlichen Lichtverhältnissen und kommt mit Stoffen erheblich besser zurecht“, sagt der CEO.



Der Geschäftsführer von Gracia AI Georgii Vysotskii.

(Bild: Gracia AI)

Das ist auch der rasanten Entwicklung des Gaussian Splatting in den vergangenen Jahren zu verdanken. Anfangs ließen sich statische Splats nur auf leistungsstarken Rechnern in akzeptabler Qualität darstellen. Mit fortschreitender Optimierung wurde das Verfahren jedoch effizienter und erreichte schließlich auch mobile Geräte. Parallel dazu entstanden dynamische Gaussian Splats, die zunächst ebenfalls hohe Rechenleistung erforderten. Innerhalb kurzer Zeit gelang es jedoch, auch diese bewegten Darstellungen so zu beschleunigen, dass sie auf schwächerer Hardware nutzbar wurden. Mit dem Streaming dynamischer Gaussian Splats folgt nun der nächste Schritt: Damit wird aus einer bislang lokal gebundenen Technologie ein erstmals breit zugängliches Medium.

Trotz dieser Entwicklung stehen volumetrische Videos noch vor zahlreichen Hürden. Die größten sind, dass Produktion und Verarbeitung aufwendig bleiben: Für vollständige 360-Grad-Aufnahmen, wie sie Gracia AI in seinen Demos zeigt, kommen weiterhin 40 bis 60 Kameras gleichzeitig zum Einsatz.

Vysotskii und Mitgründer Andrey Volodin gründeten das Start-up ursprünglich in der Absicht, ein YouTube für volumetrische Videos zu etablieren. Inzwischen sind die Ziele pragmatischer: Im Fokus steht die Entwicklung der Infrastruktur und Werkzeuge, die es Studios ermöglichen, volumetrische Inhalte zu schaffen. Eine eigene Distributionsplattform ist derzeit nicht geplant.

Gracia AI sieht primär zwei kommerzielle Einsatzfelder für die Technik: Bildung und Unterhaltung. In beiden arbeitet es bereits mit Partnern zusammen. Im Bildungsbereich nennt das Unternehmen ein Projekt mit dem Imperial College London, bei dem handwerkliche Abläufe für Trainingszwecke volumetrisch erfasst und für VR- oder Bildschirmnutzung aufbereitet werden. Im Unterhaltungsbereich verweist Gracia auf ein Projekt mit dem Freizeitpark PortAventura, wo volumetrische Inhalte in ein ortsgebundenes VR-Erlebnis für Besucher integriert werden.

Großes Potenzial sieht das Start-up auch in immersiven Sportübertragungen. Für diese arbeitet Gracia AI bereits am nächsten großen Schritt, dem Live-Streaming von dynamischen Gaussian Splats. Eine Ankündigung dazu soll es in Kürze geben.

Ein weiteres, vielversprechendes Einsatzfeld bleibt unerwähnt: Erotik. VR-Inhalte existieren hier bereits in Form von Filmen, Spielen und virtuellen Begegnungen. Volumetrische Videos könnten diesem Bereich eine neue Dimension abgewinnen.

Ob sich volumetrische Videos durchsetzen werden, hängt letztlich von der Verbreitung immersiver Computerbrillen ab. Solange diese keine Alltagsprodukte sind, bleibt auch ihr Nutzen für die breite Öffentlichkeit begrenzt. Gleichwohl zählen Gaussian Splatting und volumetrische Videos zu den derzeit interessantesten Entwicklungen in diesem Bereich.

In der App des Start-ups stehen viele weitere volumetrischen Videos als Download zum Betrachten bereit. Sie ist für Meta Quest, MacOS und Steam verfügbar. Eine App speziell für Apple Vision Pro befindet sich noch in Entwicklung und soll nach aktuellen Plänen im April erscheinen.


(tobe)



Source link

Beliebt

Die mobile Version verlassen