Connect with us

Künstliche Intelligenz

Estonia Defence Week: Raus aus der Schusslinie


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Die Estonia Defence Week in der estnischen Hauptstadt Tallinn fand am Mittwoch und Donnerstag, 24. und 25. September, ihren Höhepunkt in der Verteidigungsmesse Defence Expo. Ein Großteil der ausgestellten Neuheiten bezieht sich auf den aktuell in der Ukraine tobenden Drohnenkrieg sowie auf einen sogenannten Drone Wall an der NATO-Ostgrenze. Ein zweites Hauptthema sind automatisierte oder ferngesteuerte Landfahrzeuge. Dabei zeigt sich eine überraschende Neuheit, die künftig auch ganz zivil im deutschen Straßenverkehr auffallen könnte.



Sten Gavronski von Baltic Defence Service auf einem Manul cUAV, der mit Telearmy-Technik auch ferngesteuert fahren kann.

Bei der estnischen Telearmy ist sogar der Begriff „Dual Use“ zweideutig. Die Firma rüstet unterschiedliche Fahrzeuge mit einer Fernsteuerung aus, die frontgerecht über unterschiedliche Kanäle wie das 5G-Netz, Funk oder eine Starlink-Verbindung übertragen werden kann, je nachdem, welcher Kanal im Moment zur Verfügung steht. Für diesen Zweck rüsten die Ingenieure das Fahrzeug mit zwei bis sechs Kameras aus und greifen auf seine elektronische Steuerung zu. In schwierigen Fällen kann die Lösung auch in einer Mechanik bestehen, die das Lenkrad und die Pedale bedient. Der Operator sitzt entweder stationär an einem Steuerpult oder er nutzt eine mobile Steuereinheit. Die ist in einem robusten Hartschalenkoffer untergebracht und besteht im Wesentlichen aus einem Bildschirm und einem Joystick.

Dual Use heißt dann zunächst einmal, dass sich ein Fahrer immer noch ganz herkömmlich hinter das Steuer schwingen und das Fahrzeug wie gewohnt steuern kann. Es ist aber auch aus sicherer Entfernung möglich, ferngesteuert Versorgungsgüter an die Frontlinie zu transportieren oder Verwundete ins Hinterland zu holen. Dual Use bedeutet aber ebenso, dass die Technik auch längst schon ins zivile Leben Einzug gehalten hat. So gibt es in Estland bereits Car-Sharing-Fahrzeuge und Taxis, die ferngesteuert vor die Haustür kommen. Der Partner Elmo Teledriving hat solche Fahrzeuge seit 2022 in Estland im Einsatz und will in den kommenden Wochen mit einem Wagen in Heidelberg starten.

Das estnische Start-up Atalanta hat eine neue ferngesteuerte Plattform für verschiedene Sturmgewehre, für Jammer, die Drohnen von ihren Kommunikationskanälen abschneiden, und sogar für tragbare panzerbrechende Granatwerfer sowie als Lafette für die Flugabwehr vorgestellt. Die Remote Weapon Station namens Toxon lässt sich um 360 Grad in 90 Grad in der Sekunde drehen und beliebig im Höhenwinkel verstellen. Tageslicht- und Infrarotkameras geben nicht nur dem Schützen gute Sicht, potenzielle Ziele erkennt das System auch eigenständig und kann ausgewählte Ziele wie etwa anfliegende Drohnen nachverfolgen. So kann der Schütze aus geschützter Position heraus abdrücken. Das System könnte sogar auf ferngesteuerten Fahrzeugen genutzt werden.



Mit Nearfield- und Widefield-Objektiven, Laserdistanzmessung und Infrarotsensorik kann das System Shark von Marduk den Himmel im weiten Winkel überwachen, Objekte detektieren, kategorisieren und tracken.

Viele Unternehmen entwickeln Lösungen für einen künftigen Baltic Drone Wall, also die Drohnenabwehr an der Ostgrenze von Estland, Lettland und Litauen, beziehungsweise für einen Eastern Shield (NATO-Ostgrenze im Baltikum und Polen). Das fängt bei der estnischen DefSecIntel an, die mobile Kommandozentren in Form von Fahrzeugen mit Bildschirmplätzen, Radar, Kameras und Steuerungssoftware anbietet. Zudem arbeitet man an Abwehrdrohnen gegen angreifende Drohnen.

Das estnische Start-up Marduk Technologies hat Kamerasysteme entwickelt, die Nearfield- und Widefield-Kameras kombinieren, sowie eine Laserdistanzmessung, Nachtsicht sowie Eventkameras, die auf Bewegungen im beobachteten Luftraum ansprechen. Das Besondere: Durch die Widefield-Kameras decken diese Systeme einen Blickwinkel von 16 Grad ab. Diese Kamerasysteme können auf ihrer Servoplattform den Himmel eigenständig absuchen, eindringende Drohnen detektieren und vom Operator ausgewählte Ziele verfolgen.

In der Ukraine versucht man derzeit, viele einfliegende Drohnen mit teuren Raketensystemen zu bekämpfen, die ursprünglich für den Einsatz gegen Langstreckenraketen konzipiert worden sind. Das ist eine kostspielige Lösung gegen die eingesetzten Billigdrohnen oder sogar gegen Drohnenattrappen.



Lenflugkörper könnten in Zukunft die günstige Alternative für die Drohnenabwehr sein und sich relativ schnell in großen Mengen produzieren lassen, sagt Kusti Salm von Freudenburg Technologies.

(Bild: Erlend Štaub)

Die estnische Frankenburg Technologies entwickelt und testet derzeit einfachere Lenkflugkörper mit einer Reichweite von etwa 2 Kilometern. Diese Waffen mit Raketenantrieb sind wesentlich schneller als Drohnen und wurden bereits in über 50 Live-Tests erprobt, samt Detektion und kamerabasierter autonomer Zielfindung. Sie könnten sich bald in relativ hohen Stückzahlen herstellen lassen, wie Frankenburg-CEO Kusti Salm gegenüber c’t erklärt. Bis 2026 plane das Unternehmen in Estland eine Produktion aufzubauen, mit der Kapazität für mehrere Hundert Missiles pro Monat.

Viele Drohnensysteme an den Ständen sind darauf ausgelegt, Explosivstoffe in ihr Ziel zu transportieren oder Minen abzuwerfen. Als Jamming-Schutz können kleine Quadcopter der estnischen Meridien eine Spule von 2,5 Kilogramm Gewicht tragen, von der sich bis zu 15 Kilometer Glasfaser abspulen lassen. Damit kann die Kleindrohne ferngesteuert ins Ziel gesteuert, aber nicht gejammt werden.



Das junge estnische Start-up Mindchip rüstet Boote mit autonomer Steuerung aus. Die können als große Torpedos angreifen oder friedliche Rundfahrten machen, erklärt CEO Heigo Mölder.

(Bild: Erlend Štaub)

Verschiedene Boote, etwa von der estnischen Mindchip, können autonom gesteuert ausfahren und dabei mehrere Hundert Kilogramm an Explosivstoffen tragen, aber auch beispielsweise in einem Küstengebiet patrouillieren. Die Steuereinheit kann ebenso auf Schiffsneubauten installiert werden, um einheitliche Testfahrten auszuführen. Die Start-up-Mentalität des baltischen Landes erweist sich als innovativ und flexibel.


(agr)



Source link

Künstliche Intelligenz

Mecklenburg-Vorpommern: Land will schnellere Digitalisierungsverfahren


Die Digitalisierung in Mecklenburg-Vorpommern soll mit vereinfachten Verfahren weiter beschleunigt werden. Durch Änderungen in der Landesbauordnung, dem digitalen Bauantrag und dem Breitbandportal könnten Planungen und Genehmigungen zunehmend schneller abgewickelt werden, hieß es in einer Mitteilung des Innenministeriums in Schwerin.

Weiterlesen nach der Anzeige

„Wir haben heute Möglichkeiten, die uns vor Jahren noch gefehlt haben. Wenn wir sie alle konsequent nutzen, kommen wir deutlich schneller voran“, sagte Innenminister Christian Pegel (SPD).

2015 startete der Bund laut Ministerium das erste Förderprogramm für Glasfaserausbau. Mittlerweile könnten mehr als 60 Prozent der Haushalte im Nordosten einen Glasfaseranschluss nutzen, mit denen sie schnelleres Internet haben. Laut Pegel wurde bislang etwa die Hälfte der Fördermittel in Höhe von fast drei Milliarden Euro abgerufen.

Im September endete nach mehr als sieben Jahren Bauzeit ein großes Ausbauprojekt des Glasfasernetzes im Landkreis Vorpommern-Rügen. Davon profitieren nach früheren Angaben des Landkreises fast 60.000 Haushalte, darunter 1.800 Unternehmen und 80 Schulen in 56 Kommunen des Landkreises. Das Projekt wurde mit Gesamtkosten von knapp 127 Millionen Euro von Bund, Land und Landkreis gefördert.

Unter anderem die CDU hatte in der Vergangenheit kritisiert, dass zu wenige Haushalte im Nordosten Glasfaser haben. Mittelabflüsse aus Förderprogrammen seien hoch, doch beim tatsächlichen Ausbau hinke das Land weiter hinterher, kritisierte der Vorsitzende der CDU-Landtagsfraktion, Daniel Peters, vor mehreren Monaten.

Weiterlesen nach der Anzeige


(kbe)



Source link

Weiterlesen

Künstliche Intelligenz

Meta liefert mit SAM die Augen für multimodale Sprachmodelle


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

SAM steht für „Segment Anything Model“. Mit diesem KI-Modell ist es möglich, Objekte und sogar Audio aus Bildern und Videos zu segmentieren – einfach per Prompt. Die neueste Version von SAM – SAM 3 – ist in drei Varianten verfügbar: SAM 3, SAM 3D und SAM 3 Body. Wir haben mit Nikhila Ravi, Forschungsingenieurin bei Meta, über Anwendungsfälle und die Funktionsweise von SAM gesprochen.

Weiterlesen nach der Anzeige

Was genau ist SAM? Ist es ein neues Modell? Ist es generative KI? Es handelt sich nicht um ein großes Sprachmodell an sich.

SAM ist also eigentlich eine Reihe von Modellen, die wir in den vergangenen vier Jahren entwickelt haben. Wir haben am Projekt „Segment Anything” gearbeitet. 2023 haben wir SAM1 veröffentlicht. Mit SAM1 kann man auf ein Objekt zeigen oder klicken, woraufhin das Modell die pixelgenaue Grenze des angeklickten Objekts vorhersagt. SAM1 war nur für Bilder gedacht. Im Jahr 2024 haben wir dann SAM2 veröffentlicht, das dasselbe tat, aber in Videos. Jetzt können Sie auf ein Objekt klicken und erhalten die pixelgenaue Begrenzung dieses Objekts in jedem einzelnen Frame des Videos. SAM3 ist ein völlig neues Modell, bei dem Sie nun mit Text oder visuellen Beispielen angeben können, was Sie umreißen möchten.


Nikhila Ravi

Nikhila Ravi

Nikhila Ravi, Research Engineer bei Meta FAIR.

(Bild: [Link auf https://www.nikhilaravi.com/])

Damit meine ich, dass man beispielsweise nicht mehr auf jede einzelne Person klicken muss, sondern einfach den Text „Person“ eingeben kann und das Modell automatisch jede einzelne Person findet und die Grenze um sie herum zeichnet. Wir haben also eine völlig neue Schnittstelle geschaffen, um Segmentierungen vornehmen zu können.

Der entscheidende Unterschied zu generativen Modellen besteht vielleicht darin, dass SAM eine pixelgenaue Wahrscheinlichkeit vorhersagt, ob dieses Pixel zum Zielobjekt gehört. Es generiert keine neuen Pixel, sondern markiert sozusagen mit einem Textmarker etwas, das bereits im Bild vorhanden ist.

Man kann einfach „Person” sagen, oder einen anderen Prompt schreiben, und SAM findet die Person im Bild. Gibt es in SAM so etwas wie ein großes Sprachmodell, das für diesen Prozess verwendet wird?

Das ist eine gute Frage. Eines der Dinge, die wir unbedingt erreichen wollten, war die Implementierung einer solchen offenen Vokabular-Textschnittstelle. Aber wir haben uns dann doch dafür entschieden, uns auf kurze Textphrasen zu beschränken. „Person“ ist also ein sehr einfaches Beispiel. Man kann auch komplexere Dinge wie „gelber Schulbus“ oder „rot gestreifter Regenschirm“ eingeben. Es sind jedoch nur zwei oder drei Wörter möglich, also kurze Phrasen. Der Grund dafür ist, dass wir kein großes Sprachmodell innerhalb des Modells verwenden wollen, sondern einen kleinen Text-Encoder haben.

Weiterlesen nach der Anzeige

Denn wir verwenden SAM3 für viele Anwendungsfälle in der Praxis, darunter auch für einige Produkte bei Meta, und es muss schnell sein. Wir hätten uns auch für ein LLM entscheiden können, aber wir haben uns dafür entschieden, es auf diese kurzen Phrasen zu beschränken, damit wir es auch für Produktanwendungen schnell ausführen können.

Ich habe den Playground ausprobiert, eine Art Bild und Video-Editor, und es hat sehr viel Spaß gemacht. Aber wofür wird SAM noch verwendet?

Die präzise Bild- und Videobearbeitung ist definitiv ein Anwendungsfall, den wir im Playground hervorgehoben haben, und den wir intern für etwa Instagram Edits und andere Produkte verwenden. Intern verwenden wir es auch für die visuelle Datenbeschriftung, also das Datalabeling. SAM1 und SAM2 haben die Datenbeschriftung erheblich beschleunigt. Früher musste man die Begrenzung um das Objekt manuell zeichnen. Mit SAM1 konnte man einfach auf das Objekt klicken und erhielt die Begrenzung. Aber wenn beispielsweise fünf Hunde im Bild waren, musste man manuell auf jeden der fünf Hunde klicken. SAM3 ist wie ein weiterer Schritt zur Beschleunigung dieses Prozesses, denn jetzt kann man einfach „Hund” eingeben und erhält Masken für alle Hunde. Im Rahmen der Einführung von SAM3 haben wir unter anderem mit einem Datenkennzeichnungsunternehmen namens Roboflow zusammengearbeitet. Roboflow ist ein Unternehmen für visuelle Datenkennzeichnung, das SAM1, SAM2 und jetzt auch SAM3 integriert hat.

Das Unternehmen ist begeistert davon, wie sehr SAM die Workflows für die Kunden beschleunigen kann, und zwar in gannz verschiedenen Anwendungsfällen aus der Praxis. In der Medizin beispielsweise müssen manche Wissenschaftler Zellen zählen, genauer gesagt müssen sie manuell zählen, wie viele Zellen sich auf einem Objektträger befinden. Mit SAM3 können Sie jetzt einfach einen Textbefehl wie „Zelle” verwenden oder ein Beispielfeld zeichnen. Eine weitere Möglichkeit, etwas zu spezifizieren, besteht nämlich darin, ein Feld um ein Beispiel zu zeichnen, woraufhin SAM3 alle anderen Beispiele findet.

Es gibt auch industrielle Anwendungsfälle. Die Robotik ist ein weiterer wichtiger Anwendungsbereich, der derzeit im Vordergrund steht. Besonders interessant sind die Videofunktionen und der Echtzeitaspekt, da man beim Navigieren in einer Umgebung alle verschiedenen Objekte finden muss. Wenn man beispielsweise einen Roboter hat, der Objekte aufnehmen kann, muss man wissen, wo sich die Objekte befinden.

Datenbeschriftung kann für alles Mögliche verwendet werden. Zum Beispiel in einer industriellen Fertigungslinie, in der eine neue Komponente hergestellt werden soll und man zählen möchte, wie viele Komponenten produziert werden.

Früher mussten Menschen alles anklicken und beschreiben, heute ist das also viel einfacher und schneller, nicht wahr?

Ja. Es ist wie eine Automatisierung dieses Prozesses. Früher musste man alles manuell machen. Jetzt können wir dieses Modell in den Kreislauf einbinden, man nimmt vielleicht ein paar Korrekturen vor, aber dann sind 80 % der Vorhersagen ungefähr richtig. Das beschleunigt den gesamten Prozess.

Jetzt haben wir SAM im Playground als Editor, wir haben SAM für die Datenbeschriftung. Entwickler können SAM3 frei verwenden. Wie geht es weiter? In welche Richtung arbeiten Sie?

Der Forschungsteil ist wirklich grundlegend. Wir betrachten es gerne unter dem Gesichtspunkt: „Was ist eine grundlegende Innovation, die dann viele neue Anwendungsfälle nachgelagert ermöglicht?“ Die Anwendungsfälle im Bereich der Bearbeitung machen Spaß. Aber all diese Anwendungsfälle aus der Praxis zeigen vor allem, dass das Modell über Generalisierungsfähigkeiten verfügt.


SAM erkennt Käse, Brettchen, und andere Kleinteile auf einem Tisch.

SAM erkennt Käse, Brettchen, und andere Kleinteile auf einem Tisch.

Alle Objekte eines Bildes werden erkannt.

Die Entwicklertools, sozusagen der Code und die Modelle, veröffentlichen wir, weil wir von der Community profitieren, die darauf aufbaut. Einige der Dinge, die die Community auf SAM2 aufgebaut hat, haben wir tatsächlich für SAM3 verwendet. Es handelt sich um neue Benchmarks und einige Modellverbesserungen, die die Open-Source-Community vorgenommen hat. Und es gab einige neue Datensätze, die die Community erstellt hat.

Deshalb halten Sie an der offenen Strategie fest, richtig?

Ja, für SAM war es wirklich sehr wirkungsvoll, diese Komponente zu haben.

Was ist das nächste größere, vielleicht grundlegende Problem? Gibt es ein größeres Ziel, auf das Sie hinarbeiten?

Ich denke, eines der Dinge, die wir in der SAM3-Veröffentlichung gezeigt haben, ist, wie SAM3 mit MLLM, multimodalen großen Sprachmodellen, eine visuelle Grundkomponente sein kann. SAM3 ist beispielsweise sehr gut in der Lokalisierung, also der Vorhersage der pixelgenauen Maske, während MLLMs sehr gut im Schlussfolgern und Planen sind und über all dieses zusätzliche Wissen über die Welt verfügen. Wir haben bereits gezeigt, wie man ein MLLM mit SAM3 kombinieren kann, um komplexere visuelle Aufgaben zu lösen. SAM3 ist also so etwas wie die Augen, das MLLM ist wie das Gehirn, und sie arbeiten zusammen. Dieses Experiment haben wir bei der SAM-3-Veröffentlichung vorgestellt. Ich denke, das ist definitiv eine sehr interessante Richtung für die Zukunft.

Und glauben Sie, dass dies für eine AGI (Artificial General Intelligence) oder eine AMI (Artificial Machine Intelligence) oder eine Superintelligenz oder etwas in der Art notwendig ist?

Auf jeden Fall für die Robotik. Die Robotik ist ein gutes Beispiel, weil sie viele verschiedene Anwendungsfälle umfasst: Etwa um verkörperte Agenten zu haben, die sich in der Welt bewegen und dann Aufgaben ausführen können, die die Lokalisierung und Verfolgung von Objekten erfordern. Da ist es eine enorm wichtige Fähigkeit. Und ganz allgemein: Wie kann man Vision und Sprache enger miteinander verbinden? Denn wie Sie wissen, ist die Menge an visuellen Daten, die wir in der Welt haben, deutlich größer als die Menge an Textdaten. Es ist entscheidend, visuelle Inhalte so tiefgreifend wie Textdaten verbinden und verstehen zu können. Wir brauchen die Augen, und die Augen sind im Moment im Vergleich zu den menschlichen Augen noch sehr primitiv.

Was können wir in naher Zukunft erwarten?

Es gibt einige kurzfristige Ziele, die wir erreichen möchten, beispielsweise das Modell etwas schneller zu machen. Derzeit ist es bei Bildern sehr schnell. Bei Videos ist es für etwa fünf Objekte in Echtzeit schnell, aber dann skaliert die Inferenzzeit mit der Anzahl der Objekte. Wir haben also einige Ideen, wie wir die Inferenz schneller machen können. Es gibt ein paar Dinge, die wir umsetzen möchten und die leicht zu erreichen sind.

Ich habe mich gefragt, ob klassische Freisteller, vielleicht für Produkte in Online-Shops, ein Anwendungsfall sind? Oder ist das für SAM viel zu einfach? Es gibt ja auch SAM 3D.

SAM 3D ist ein separates Modell. Wir haben also tatsächlich drei verschiedene Modelle veröffentlicht. SAM 3, SAM 3D Objects und SAM 3D Body. Für den von Ihnen genannten Anwendungsfall könnten SAM 3 und SAM 3D Objects eine gute Lösung sein. Wir haben dies tatsächlich mit Facebook Marketplace umgesetzt. Wir haben eine Funktion entwickelt, mit der jeder Verkäufer von Wohnaccessoires auf Facebook Marketplace die Möglichkeit hat, sein Angebot in ein 3D-Objekt umzuwandeln, das der Käufer dann in Augmented Reality betrachten kann. Dabei wird SAM 3 verwendet, um das Objekt zu maskieren, und dann mit SAM 3D in 3D umgewandelt. Das war ein Projekt, an dem ich besonders gerne mitgearbeitet habe, weil ich glaube, dass wir uns so etwas vor fünf Jahren noch nicht hätten vorstellen können, und jetzt können wir es tun.


Ein Sessel wird mittels Prompt zum 3D-Objekt.

Ein Sessel wird mittels Prompt zum 3D-Objekt.

Ein Sessel wird mittels Prompt zum 3D-Objekt.

(Bild: Meta)

Und wo liegen die Grenzen? Ich glaube, ich habe gelesen, dass die Hände das Problem für SAM 3D Body sind. Es sind immer die Hände.

Es gibt unterschiedliche Einschränkungen für verschiedene Modelle. Ich denke, die Einschränkung des SAM 3-Modells liegt eindeutig in den kurzen Textphrasen. Das ist etwas, das wir hoffentlich lösen können. Es gibt auch sehr nischenhafte Bereiche, die spezielles Wissen erfordern. Zum Beispiel die Interpretation von Röntgenbildern. Wir haben dieses Wissen nicht in das Modell integriert, da wir keine Daten dafür haben. Für solche Anwendungsfälle müssen also Daten gesammelt und das Modell feinabgestimmt werden. Wir bieten jedoch Anweisungen zur Feinabstimmung in der Code-Veröffentlichung für SAM 3. Bei SAM 3D gibt es die genannten Handrekonstruktion. Es gibt außerdem Bemühungen, die Geschwindigkeit der SAM 3D-Modelle zu verbessern, damit auch sie schneller laufen können.


(emw)



Source link

Weiterlesen

Künstliche Intelligenz

Meta SAM 3 und 3D als offene Modelle verfügbar


Meta macht SAM 3, 3D Objects und 3D Body frei verfügbar. Das sind die neuesten Segmentierungsmodelle. Was sperrig klingt, meint tatsächlich das automatisierte Segmentieren von Objekten in Bildern und Videos. So lassen sich Objekte erfassen und beispielsweise in neue Umgebungen einfügen. Meta sieht darin einen wichtigen Schritt bei der Computer Vision.

Weiterlesen nach der Anzeige

SAM steht für Segment Anything Model. Man kann die neue Version etwa über die App Edits nutzen oder den Playground – eine extra eingerichtete Webseite, die Modelle sind aber auch frei auf den gängigen Plattformen verfügbar.


Redakteurin bearbeitet mit SAM.

Redakteurin bearbeitet mit SAM.

(Bild: Eva-Maria Weiß / KI / SAM)

Im Playground lassen sich Bilder oder Videos hochladen und Elemente per Prompt auswählen, die SAM freistellt. Dafür reicht in der Regel ein einzelnes Wort, SAM erkennt etwas eine Person, einen Hund oder einen Wasserkocher. Möglich sind nur simple Prompts mit ein, zwei oder auch drei Wörtern. Das liegt daran, dass Meta sich für ein Encoder-Modell entschieden hat, statt ein großes Sprachmodell zu integrieren – wie uns Nikhila Ravi, Research-Engineer bei Meta in einem Interview erklärt.

Danach lassen sich Effekte anwenden. Man kann das Objekt klonen, verpixeln, Rahmen setzen, den Hintergrund verändern, schwärzen und vieles mehr. Die Bilder lassen sich herunterladen. Fast schon obligatorisches Einsatzgebiet für diese Art von Spielereien ist freilich Instagram. Die Bilder lassen sich aber auch anderswo hochladen und verschicken.

Möglich ist es auch, Objekte aus Fotos auszuwählen, von denen SAM ein 3D-Bild erstellt. Diese lassen sich dann wiederum in andere Hintergründe einfügen sowie Effekte drüberlegen. Eine Lampe im luftleeren Raum über Eis und mit Glühwürmchen-artigen Punkten ist zwar kein wirklich realistisches Nutzungsszenario, aber lustig. Hält man das Objekt mit der Maus fest, lässt sich der Blickwinkel ändern. Selbst Personen können zu 3D-Bildern werden, deren Bewegungen auch über mehrere Bilder hinweg segmentiert werden. Dafür gibt es das spezialisierte Modell SAM 3D Body, bei dem im Hintergrund die Skelettstruktur einer Person erfasst wird statt der Form des gesamten Körpervolumens.


Eine segmentierte Lampe hängt im Schnee.

Eine segmentierte Lampe hängt im Schnee.

Mit SAM 3D kann man eine Lampe in den Schnee hängen.

(Bild: SAM)

Meta testet die 3D-Funktion bereits im Facebook Marketplace aus. Dort können Käufer angebotene Wohngegenstände freistellen und in die eigenen Räumlichkeiten integrieren. An ähnlichen Funktionen wird im Online-Shopping schon lange gearbeitet, allerdings waren die Freisteller und Objekte bisher deutlich komplexer in der Erstellung. Dass man Gebrauchtwaren mal eben in ein 3D-Objekt umwandeln kann, ist neu.

Weiterlesen nach der Anzeige

Neben dem Playground kann SAM 3 auch in Edits genutzt werden. Das ist Metas KI-basierte Videoeditor-App. Die Funktionen sind hier ebenfalls darauf ausgelegt, die Videos und Bilder dann bei Instagram hochzuladen. Eine ähnliche App bietet auch Tiktok mit CapCut an.

Das Modell ist nicht darauf trainiert, etwa in der Medizin eingesetzt zu werden. Hierfür bedürfte es eines weiteren Finetunings. Die Einsatzgebiete von SAM reichen neben der spaßigen Bild- und Videobearbeitung bis zur Robotik und dem Datalabeling.

Neu ist auch das Modell SAM Audio. Damit lassen sich Geräusche, Sprache und Musik segmentieren. Möglich ist etwa, aus einer Videoaufnahme von einer Band nur die Gitarre herauszufiltern. Ein Gespräch oder Vogelgezwitscher können aus einer Umgebung separiert werden. Es reicht auch hier ein simpler Prompt. Meta spricht von einem Perception Encoder Audio Video – einem neuen ebenfalls frei verfügbaren Modell.


(emw)



Source link

Weiterlesen

Beliebt