Künstliche Intelligenz
Volumetrische Videos nehmen eine wichtige Hürde auf dem Weg zum Mainstream
Volumetrische Videos zeigen Menschen und Objekte als dreidimensionale Körper, die sich aus frei wählbaren Perspektiven betrachten lassen. Dank Fortschritten bei der Optimierung und Übertragung von dynamischen Gaussian Splats lassen sie sich nun in guter Qualität auf mobile Geräte und sogar auf autarken VR-Brillen streamen, eine ausreichend schnelle und stabile Internetverbindung vorausgesetzt.
Weiterlesen nach der Anzeige
Das Start-up Gracia AI gehört zu den Vorreitern dieser Technologie und hat diesen Monat drei Demos veröffentlicht, anhand derer man das Streaming dynamischer Gaussian Splats ausprobieren kann. Dynamisch bedeutet hier, dass die Gaussian Splats eine zeitliche Abfolge und Bewegung abbilden und nicht nur eine Momentaufnahme.
Gaussian Splatting ist ein Verfahren zur 3D-Rekonstruktion und -Darstellung. Als Darstellungsansatz unterscheidet es sich grundlegend von klassischer 3D-Grafik. Statt Objekte aus Netzen verbundener Polygone, meist Dreiecken, aufzubauen, wird eine Szene als dichte Ansammlung kleiner, räumlich ausgedehnter Punkte beschrieben. Diese sogenannten Splats („Kleckse“) tragen jeweils Informationen wie Position, Größe, Ausrichtung, Farbe und Transparenz. In verdichteter Form ergeben diese visuellen Atome äußerst real wirkende Menschen, Objekte und Umgebungen.
Der Ansatz spielt seine Stärken vor allem bei komplexen und feinen Strukturen aus: Haare, Rauch oder andere schwer zu modellierende Formen lassen sich so deutlich natürlicher erfassen. Gleichzeitig entstehen weichere Übergänge und insgesamt stimmigere Bildeindrücke, die mit klassischen Polygonnetzen oft nur mit erheblichem Zusatzaufwand zu erreichen sind.
Gaussian Splatting war ursprünglich vor allem ein Verfahren zur 3D-Rekonstruktion der realen Welt. Statische Motive lassen sich mit handelsüblichen Kameras, etwa von Smartphones, vergleichsweise schnell und unkompliziert erfassen. Im Vergleich zu anderen Digitalisierungsverfahren wie Photogrammetrie und NeRFs sind die resultierenden Darstellungen deutlich effizienter und lassen sich inzwischen auch auf mobilen Geräten in Echtzeit rendern.
Inzwischen löst sich Gaussian Splatting zunehmend aus dem ursprünglichen Rekonstruktionskontext. Neben der KI-gestützten Generierung von 3D-Umgebungen (Googles Project Genie) und Anwendungen wie immersiver Telepräsenz (Apples verbesserte Personas) wird die Technik auch in der Filmproduktion und künftig wohl auch in der Spieleentwicklung eingesetzt.
Die Beispiele demonstrieren drei typische Anwendungsszenarien aus Unterhaltung, Handwerk und Medizin: eine vierminütige musikalische Performance sowie kurze Ausschnitte aus einer Rennrad-Reparaturanleitung und einer Physiotherapie-Sitzung. Für die korrekte Wiedergabe wird ein WebGPU-fähiger Browser wie Google Chrome benötigt. Die volumetrischen Videos starten ohne Vorinstallation einer App oder lange Pufferzeiten und ermöglichen es Nutzern, die Szenen aus beliebigen Blickwinkeln zu betrachten sowie heran- und herauszuzoomen.
In einer VR-Brille steigt der Mehrwert der volumetrischen Videos: Die Menschen und Objekte erscheinen im eigenen Wohnzimmer und entfalten eine physische Präsenz. Position und Größe lassen sich per Handbewegung anpassen: von riesig über lebensgroß bis zur Miniatur auf dem Tisch. Wir haben die Funktion im WebXR-fähigen Browser der Meta Quest 3 ausprobiert. Auch auf Apple Vision Pro funktioniert das Streaming, allerdings ohne Passthrough-Ansicht, da Apple diese Funktion für WebXR bislang nicht freigegeben hat.
Wie streamt man dynamische Gaussian Splats?
Das Streaming dynamischer Gaussian Splats im Browser ist keine völlig neue Entwicklung: Das chinesische Start-up 4DV hat entsprechende Ansätze bereits 2025 demonstriert. Allerdings überfordern deren Szenen noch manche Geräte.
Weiterlesen nach der Anzeige
Gracia AI empfiehlt für seine Streaming-Technik eine Bandbreite von relativ hohen 80 Mbit/s, was einer Darstellung von 120.000 Splats pro Frame entspricht. Das ist laut CEO Georgii Vysotskii die maximale Bitrate der aktuellen Streaming-Konfiguration. In vielen Fällen genügt jedoch auch weniger Bandbreite, abhängig von der Komplexität der Szene. Entscheidend ist, wie viel Bewegung sie enthält.
Dynamisches Gaussian Splatting unterscheidet sich grundlegend von herkömmlichen Videos: Die dargestellten Inhalte bestehen nicht aus vorgerenderten Bildfolgen, sondern aus einer Ansammlung räumlich ausgedehnter 3D-Punkte, die auf dem lokalen Gerät in Echtzeit gerendert werden. Bei der von Gracia AI entwickelten proprietären Streaming-Technik werden keine fertigen Bilder übertragen, sondern Keyframes und Bewegungsdaten dieser 3D-Repräsentation.
Der Vorteil dieses Ansatzes liegt auf der Hand: Statt für jeden Zeitpunkt alle 3D-Punkte zu übertragen, werden nur die Veränderungen zwischen ihnen kodiert. Da sich viele Teile einer Szene über die Zeit hinweg kaum verändern, lässt sich so erheblich Bandbreite sparen. „Im Kern handelt es sich um einen Codec-ähnlichen Ansatz aus der 2D-Videotechnik, übertragen auf Gaussian Splatting“, erklärt Vysotskii. Gegenüber Download-Versionen der volumetrischen Videos ist die Datenrate mehr als zehnmal niedriger, bei nahezu gleicher visueller Qualität.
Die Produktionspipeline des Start-ups erlaubt es, je nach Anwendungsfall und Ausgabegerät unterschiedliche Bitraten und Qualitätsstufen festzulegen, etwa für Streaming oder Download sowie für mobile Geräte oder leistungsstärkere stationäre Rechner, die mehr Splats gleichzeitig rendern können. Speziell für das Streaming hat das Start-up auch eine Konfiguration mit 17 Mbit/s oder 15.000 dargestellten Splats pro Frame getestet, die sich für volumetrische Aufnahmen mit wenig Bewegung eignet. Diese Bitrate liegt im Bereich typischen 4K-Videostreamings.
Gaussian Splats: Von lokaler Berechnung zum gestreamten Medium
Volumetrische Videos gelten seit Langem als ein Kernversprechen immersiver Technologien. Mit ihnen verbindet sich die Vision, dass Aufnahmen von Menschen, Objekten und Szenen nicht mehr auf Bildschirme und Leinwände beschränkt sind, sondern als frei im Raum platzierte, greifbar wirkende Hologramme erscheinen.
Ernstzunehmende Versuche in diese Richtung gab es bereits vor rund zehn Jahren, parallel zum Aufkommen der ersten massentauglichen VR-Brillen: Unternehmen wie Microsoft und Intel experimentierten mit volumetrischen Videoformaten und bauten dafür eigene Aufnahmestudios. Auch in Deutschland entstand mit Volucap in Babelsberg früh eine professionelle Infrastruktur für volumetrische Aufnahmen. Obwohl sie technisch beeindruckend waren, scheiterten die Ansätze bislang an hohen Produktionskosten, enormen Datenmengen und fehlenden Verbreitungswegen.
Volumetrische Videos sind keine Videos im klassischen Sinn, da sie nicht aus festen Bildfolgen bestehen, sondern aus dreidimensionalen Inhalten, die in Echtzeit gerendert werden. In diesem Punkte ähneln sie Videospielen.
Die meisten volumetrischen Videos basieren auf Aufnahmen realer Menschen, Objekte und Szenen. Ihre Interaktivität beschränkt sich in der Regel auf die Wahl der Perspektive und Entfernung. Bis jetzt entstanden solche Aufnahmen vorwiegend in spezialisierten Studios, in denen eine Vielzahl Kameras ein Motiv gleichzeitig aus verschiedenen Blickwinkeln erfassen. Für die Verarbeitung und Darstellung dieser Daten gibt es unterschiedliche Ansätze: Der neueste und vielversprechendste ist Gaussian Splatting.
Es gibt statische und dynamische Gaussian Splats, aber nur dynamische Gaussian Splats bilden eine zeitliche Abfolge und Bewegung ab und qualifizieren sich damit als volumetrische Videos. Zur klaren Abgrenzung werden statische Gaussian Splats auch als „3DGS“ und dynamische Gaussian Splats als „4DGS“ bezeichnet (Zeit als vierte Dimension).
Volumetrische Videos, ob auf Basis von Gaussian Splatting oder anderer 3D-Rekonstruktions- und Darstellungsverfahren, unterscheiden sich grundlegend von anderen immersiven Videoformaten, die deutlich weniger Freiheitsgrade bieten, dafür aber auch deutlich leichter herzustellen sind.
Stereoskopische Videos (von Apple auch „Spatial Videos“ genannt) bieten leicht versetzte Perspektiven für beide Augen und erzeugen so einen 3D-Eindruck, sind jedoch auf ein meist rechteckiges Bildformat und eine feste Perspektive beschränkt. Sogenannte 180- und 360-Grad-Videos erweitern zwar das Sichtfeld, ändern jedoch nichts an der festen Perspektive. Ansätze, die mithilfe von Künstlicher Intelligenz aus Videos neue Blickwinkel berechnen, sind derzeit noch stark eingeschränkt, da sie fehlende Bildinformationen „erfinden“ müssen. Volumetrische Videos gelten damit als die mächtigste Form immersiver Videoformate, sind jedoch nach wie vor aufwendig in der Produktion.
Künftig dürften volumetrische Videos vermehrt synthetisch entstehen, etwa durch KI-Generierung. Dabei könnten die Grenzen zwischen volumetrischem Video, interaktiven Formaten und Videospielen zunehmend verschwimmen.
Gaussian Splatting löst einige dieser Probleme. Zum einen senkt die Technik die Kosten der Erfassung deutlich. Laut Vysotskii sinkt die Zahl der benötigten Kameras stetig. Zudem seien hochwertige Aufnahmen zunehmend mit vergleichsweise günstigen Smartphone-Kameras oder GoPros möglich. Zum anderen verlagere sich die Produktion von professionellen Volumetrie-Studios mit Dutzenden Kameras hin zu portablen Kamerarigs, die ein kleineres Sichtfeld erfassen. In solchen Fällen reichen laut Vysotskii zehn iPhones.
Auch in puncto Technik und Erfassungsqualität hat sich das Verfahren deutlich weiterentwickelt. „Der Erfassungsprozess ist heute wesentlich weniger restriktiv als noch zu Zeiten klassischer Mesh-Erfassung. Gaussian Splatting ist deutlich flexibler bei der Kameraplatzierung, robuster gegenüber unterschiedlichen Lichtverhältnissen und kommt mit Stoffen erheblich besser zurecht“, sagt der CEO.

Der Geschäftsführer von Gracia AI Georgii Vysotskii.
(Bild: Gracia AI)
Das ist auch der rasanten Entwicklung des Gaussian Splatting in den vergangenen Jahren zu verdanken. Anfangs ließen sich statische Splats nur auf leistungsstarken Rechnern in akzeptabler Qualität darstellen. Mit fortschreitender Optimierung wurde das Verfahren jedoch effizienter und erreichte schließlich auch mobile Geräte. Parallel dazu entstanden dynamische Gaussian Splats, die zunächst ebenfalls hohe Rechenleistung erforderten. Innerhalb kurzer Zeit gelang es jedoch, auch diese bewegten Darstellungen so zu beschleunigen, dass sie auf schwächerer Hardware nutzbar wurden. Mit dem Streaming dynamischer Gaussian Splats folgt nun der nächste Schritt: Damit wird aus einer bislang lokal gebundenen Technologie ein erstmals breit zugängliches Medium.
Volumetrische Videos: Viele Hürden bleiben
Trotz dieser Entwicklung stehen volumetrische Videos noch vor zahlreichen Hürden. Die größten sind, dass Produktion und Verarbeitung aufwendig bleiben: Für vollständige 360-Grad-Aufnahmen, wie sie Gracia AI in seinen Demos zeigt, kommen weiterhin 40 bis 60 Kameras gleichzeitig zum Einsatz.
Vysotskii und Mitgründer Andrey Volodin gründeten das Start-up ursprünglich in der Absicht, ein YouTube für volumetrische Videos zu etablieren. Inzwischen sind die Ziele pragmatischer: Im Fokus steht die Entwicklung der Infrastruktur und Werkzeuge, die es Studios ermöglichen, volumetrische Inhalte zu schaffen. Eine eigene Distributionsplattform ist derzeit nicht geplant.
Gracia AI sieht primär zwei kommerzielle Einsatzfelder für die Technik: Bildung und Unterhaltung. In beiden arbeitet es bereits mit Partnern zusammen. Im Bildungsbereich nennt das Unternehmen ein Projekt mit dem Imperial College London, bei dem handwerkliche Abläufe für Trainingszwecke volumetrisch erfasst und für VR- oder Bildschirmnutzung aufbereitet werden. Im Unterhaltungsbereich verweist Gracia auf ein Projekt mit dem Freizeitpark PortAventura, wo volumetrische Inhalte in ein ortsgebundenes VR-Erlebnis für Besucher integriert werden.
Großes Potenzial sieht das Start-up auch in immersiven Sportübertragungen. Für diese arbeitet Gracia AI bereits am nächsten großen Schritt, dem Live-Streaming von dynamischen Gaussian Splats. Eine Ankündigung dazu soll es in Kürze geben.
Ein weiteres, vielversprechendes Einsatzfeld bleibt unerwähnt: Erotik. VR-Inhalte existieren hier bereits in Form von Filmen, Spielen und virtuellen Begegnungen. Volumetrische Videos könnten diesem Bereich eine neue Dimension abgewinnen.
Ob sich volumetrische Videos durchsetzen werden, hängt letztlich von der Verbreitung immersiver Computerbrillen ab. Solange diese keine Alltagsprodukte sind, bleibt auch ihr Nutzen für die breite Öffentlichkeit begrenzt. Gleichwohl zählen Gaussian Splatting und volumetrische Videos zu den derzeit interessantesten Entwicklungen in diesem Bereich.
In der App des Start-ups stehen viele weitere volumetrischen Videos als Download zum Betrachten bereit. Sie ist für Meta Quest, MacOS und Steam verfügbar. Eine App speziell für Apple Vision Pro befindet sich noch in Entwicklung und soll nach aktuellen Plänen im April erscheinen.
(tobe)
Künstliche Intelligenz
Anthropic wirft OpenClaw aus seinen Claude-Abos
Anthropic schiebt OpenClaw den Riegel vor – zumindest bei Kunden seiner Abomodelle für die KI-Modellfamilie Claude. Der Zugang für Tools von Drittanbietern ist ab jetzt gesperrt, teilt der KI-Hersteller mit.
Weiterlesen nach der Anzeige
OpenClaw-Entwickler Peter Steinberger, der das Tool ursprünglich als Bastelprojekt startete und mittlerweile bei OpenAI angestellt ist, versuchte noch höchstpersönlich, die Verantwortlichen bei Anthropic umzustimmen. „Ihnen Vernunft beizubringen“, wie er es beschreibt. Doch der gemeinsame Versuch mit OpenClaw-Kollege Dave Morin blieb erfolglos.
Zusatzpakete buchbar
Eine Chance, dass der OpenClaw-Spaß für Claude-Abonnenten weitergeht, gibt es aber noch: Sie können sich zu ihrem regulären Abo noch Zusatzpakete buchen, die dann auch für Drittanbieter-Tools wie OpenClaw nutzbar sind, teilt Anthropic mit. Wer Claude über die API nutzt, ist nicht betroffen und kann OpenClaw auch weiter mit diesem Claude-Zugang betreiben.
OpenClaw mit einem Claude-Abo zu nutzen, war eigentlich von Anfang an nicht vorgesehen. Bei der Konfiguration von OpenClaw gab es allerdings einen Weg, seine Tokens aus dem Claude-Abo dennoch für den KI-Assistenten zu nutzen. Dass die Abos nicht für Drittanbieter-Tools ausgelegt seien, betonte auch Claude-Code-Chef Boris Cherny nochmal und sprach von einer stark angestiegenen Claude-Nachfrage. Kapazitäten müssten mit Bedacht gesteuert werden, dabei hätten API-Kunden Priorität.
OpenClaws Tokenverbauch kann enorm werden
Der massive Token-Verbauch war schon im Heise-Videomagazin c’t 3003 zu beobachten. Im Januar war OpenClaw hier im ausführlichen Test – betrieben mit einer Claude-API. Nach einem Tag OpenClaw-Nutzung mit dem KI-Modell Claude Opus waren bereits 109,55 US-Dollar an KI-Tokens verbraten – sie sind die kleinste sprachliche Einheit, die KI-Modelle benötigen, um Text zu verarbeiten und die gängige Möglichkeit, monetarische Kosten für KI-Nutzung zu messen.
Zum Vergleich: Für einen Software-Entwickler in einem Team, das professionell Claude Code nutzt, fallen durchschnittlich 6 Dollar pro Tag an, rechnet Anthropic vor. Dabei ist vorausgesetzt, dass 90 Prozent der Teammitglieder mit ihren Tageskosten jeweils unter 12 Dollar bleiben.
Weiterlesen nach der Anzeige
Die jetzige Änderung dürfte vor allem private Nutzer treffen, die ihren Eigenbedarf mit einem Claude-Abo decken. Wenn jetzt die Last dieser privaten OpenClaw-Enthusiasten von Anthropics Servern fällt, dürften vor allem Claude-API-Kunden, die meist im professionellen Bereich unterwegs sind, davon profitieren. In anderen Regionen scheidet der Einsatz von Tools wie OpenClaw gleich ganz aus: So sprachen chinesische Behörden zuletzt Verbote für KI-Agenten auf Bürocomputern aus, da sie Sicherheitsrisiken durch autonomen Datenzugriff fürchten.
Lesen Sie auch
(nen)
Künstliche Intelligenz
Sichere Softwareentwicklung: Vortrag für die heise devSec in Marburg einreichen
Am 22. und 23. September findet die heise devSec 2026 statt. Die zehnte Auflage der Konferenz zu sicherer Softwareentwicklung wandert dieses Jahr nach Marburg. Weiterhin lautet das Motto „Sichere Software beginnt vor der ersten Zeile Code“.
Weiterlesen nach der Anzeige
Der Call for Proposals ist noch bis zum 14. April geöffnet. Vor der großen Konferenz im Herbst findet am 11. Mai die Online-Konferenz KI und Security statt.
Die heise devSec 2026 richtet sich an IT-Profis, die das Thema Security im Blick haben und sich den damit verbundenen Herausforderungen stellen müssen. Vor allem Softwareentwicklerinnen und -architekten, Projektleiter und Teamleiterinnen sowie Sicherheits- und Qualitätsbeauftragte nehmen an der heise devSec teil.
Security in allen Phasen der Softwareentwicklung
Im Call for Proposals suchen die Veranstalter iX, heise security und dpunkt.verlag bis zum 14. April Vorträge und Workshops unter anderem zu folgenden Themen:
- Entwurf und sichere Architekturen
- KI in der Softwareentwicklung
- Security by Design, Security Engineering
- Supply Chain Security
- Sichere Freie und Open-Source-Software und deren Entwicklung
- Korrekter Einsatz von Kryptografie
- Compliance-orientierte Entwicklung für deutsche und internationale Märkte
- DevSecOps
- Sichere Software und datenschutzkonforme Umsetzung
Erfahrungsberichte sind besonders gern gesehen. Das Programm wird Mitte Mai veröffentlicht. Bis dahin können Frühentschlossene Tickets für die Herbstkonferenz zum besonders günstigen Blind-Bird-Tarif von 1049 Euro kaufen.
Online-Konferenz im Mai zu KI und Security
Weiterlesen nach der Anzeige
Am 11. Mai findet zusätzlich der Special Day „KI und Security“ statt. Er widmet sich einerseits den Angriffsvektoren auf KI-Anwendungen und andererseits Best Practices, mithilfe von KI Software sicherer zu entwickeln.
Das Programm steht schon fest und bietet folgende Vorträge:
- Security im Spannungsfeld von AI und Dev
- Sicherheitsnetze für den sicheren Einsatz von Coding-Agenten
- KI-Code und der Cyber Resilience Act
- Vibe-Hacking & Security-Agenten
- LLM-Security: Die OWASP-Liste der Angriffsvektoren
- Hands-on LLM Security – Schwachstellen und Gegenmaßnahmen
Tickets für die Online-Konferenz sind bis zum 20. April zum Frühbucherpreis von 249 Euro (zzgl. MwSt.) verfügbar. Teams ab drei Personen erhalten im Ticketshop automatisch einen Gruppenrabatt.
Wer über die heise devSec inklusive der Special Days auf dem Laufenden bleiben möchte, kann sich für den Newsletter eintragen.
(rme)
Künstliche Intelligenz
Satellitenbilder-Stopp: Planet Labs folgt Aufforderung der US-Regierung
Das Unternehmen Planet Labs stellt aufgrund einer Aufforderung der US-Regierung mit Verweis auf den Iran-Krieg die Veröffentlichung aktueller Satellitenaufnahmen aus dem Nahen Osten weitestgehend ein. Das berichteten unter anderem die „New York Times“ und das „Wall Street Journal“ unter Berufung auf eine E-Mail des US-Anbieters an dessen Kunden. Aufnahmen sollen demnach bis auf Weiteres nur noch in Einzelfällen freigegeben werden. Die Einschränkung gelte unter anderem für den Iran sowie die betroffenen Staaten rund um den Persischen Golf.
Weiterlesen nach der Anzeige
Unter anderem Journalisten und Forscher nutzen solche Satellitenaufnahmen, um zum Beispiel die Folgen von Angriffen in der Region oder die Bewegung von Schiffen zu dokumentieren. Die Aufnahmen sind vor allem hilfreich für Gebiete, die sonst schwer zugänglich sind – sei es wegen laufender Kampfhandlungen, ihrer Lage oder Beschränkungen durch die örtlichen Behörden. Inzwischen gehen die iranischen Behörden auch massiv gegen Satelliteninternet-Terminals vor, um den Informationsfluss zu kontrollieren.
Planet Labs hatte die Veröffentlichung von Aufnahmen aus der Region nach Beginn des Iran-Kriegs vor gut fünf Wochen bereits aus Sicherheitsgründen verzögert. Auch das Konkurrenzunternehmen Vantor habe die Veröffentlichung von Satellitenaufnahmen aus der Region bereits eingeschränkt, hieß es in den Berichten weiter. Die US-Regierung befürchtet, dass aktuelle Satellitenaufnahmen Gegnern wie dem Iran für deren Angriffe nutzen könnten.
Lesen Sie auch
(nen)
-
Künstliche Intelligenzvor 2 Monaten
Top 10: Die beste kabellose Überwachungskamera im Test – Akku, WLAN, LTE & Solar
-
Social Mediavor 1 MonatCommunity Management und Zielgruppen-Analyse: Die besten Insights aus Blog und Podcast
-
Social Mediavor 2 MonatenCommunity Management zwischen Reichweite und Verantwortung
-
UX/UI & Webdesignvor 2 MonatenEindrucksvolle neue Identity für White Ribbon › PAGE online
-
Künstliche Intelligenzvor 3 MonatenAumovio: neue Displaykonzepte und Zentralrechner mit NXP‑Prozessor
-
Künstliche Intelligenzvor 3 MonateneHealth: iOS‑App zeigt Störungen in der Telematikinfrastruktur
-
Apps & Mobile Entwicklungvor 3 MonatenX3D² bestätigt: Der AMD Ryzen 9 9950X3D2 mit doppeltem 3D V-Cache kommt!
-
Entwicklung & Codevor 4 WochenCommunity-Protest erfolgreich: Galera bleibt Open Source in MariaDB
