Connect with us

Künstliche Intelligenz

Meta liefert mit SAM die Augen für multimodale Sprachmodelle


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

SAM steht für „Segment Anything Model“. Mit diesem KI-Modell ist es möglich, Objekte und sogar Audio aus Bildern und Videos zu segmentieren – einfach per Prompt. Die neueste Version von SAM – SAM 3 – ist in drei Varianten verfügbar: SAM 3, SAM 3D und SAM 3 Body. Wir haben mit Nikhila Ravi, Forschungsingenieurin bei Meta, über Anwendungsfälle und die Funktionsweise von SAM gesprochen.

Weiterlesen nach der Anzeige

Was genau ist SAM? Ist es ein neues Modell? Ist es generative KI? Es handelt sich nicht um ein großes Sprachmodell an sich.

SAM ist also eigentlich eine Reihe von Modellen, die wir in den vergangenen vier Jahren entwickelt haben. Wir haben am Projekt „Segment Anything” gearbeitet. 2023 haben wir SAM1 veröffentlicht. Mit SAM1 kann man auf ein Objekt zeigen oder klicken, woraufhin das Modell die pixelgenaue Grenze des angeklickten Objekts vorhersagt. SAM1 war nur für Bilder gedacht. Im Jahr 2024 haben wir dann SAM2 veröffentlicht, das dasselbe tat, aber in Videos. Jetzt können Sie auf ein Objekt klicken und erhalten die pixelgenaue Begrenzung dieses Objekts in jedem einzelnen Frame des Videos. SAM3 ist ein völlig neues Modell, bei dem Sie nun mit Text oder visuellen Beispielen angeben können, was Sie umreißen möchten.


Nikhila Ravi

Nikhila Ravi

Nikhila Ravi, Research Engineer bei Meta FAIR.

(Bild: [Link auf https://www.nikhilaravi.com/])

Damit meine ich, dass man beispielsweise nicht mehr auf jede einzelne Person klicken muss, sondern einfach den Text „Person“ eingeben kann und das Modell automatisch jede einzelne Person findet und die Grenze um sie herum zeichnet. Wir haben also eine völlig neue Schnittstelle geschaffen, um Segmentierungen vornehmen zu können.

Der entscheidende Unterschied zu generativen Modellen besteht vielleicht darin, dass SAM eine pixelgenaue Wahrscheinlichkeit vorhersagt, ob dieses Pixel zum Zielobjekt gehört. Es generiert keine neuen Pixel, sondern markiert sozusagen mit einem Textmarker etwas, das bereits im Bild vorhanden ist.

Man kann einfach „Person” sagen, oder einen anderen Prompt schreiben, und SAM findet die Person im Bild. Gibt es in SAM so etwas wie ein großes Sprachmodell, das für diesen Prozess verwendet wird?

Das ist eine gute Frage. Eines der Dinge, die wir unbedingt erreichen wollten, war die Implementierung einer solchen offenen Vokabular-Textschnittstelle. Aber wir haben uns dann doch dafür entschieden, uns auf kurze Textphrasen zu beschränken. „Person“ ist also ein sehr einfaches Beispiel. Man kann auch komplexere Dinge wie „gelber Schulbus“ oder „rot gestreifter Regenschirm“ eingeben. Es sind jedoch nur zwei oder drei Wörter möglich, also kurze Phrasen. Der Grund dafür ist, dass wir kein großes Sprachmodell innerhalb des Modells verwenden wollen, sondern einen kleinen Text-Encoder haben.

Weiterlesen nach der Anzeige

Denn wir verwenden SAM3 für viele Anwendungsfälle in der Praxis, darunter auch für einige Produkte bei Meta, und es muss schnell sein. Wir hätten uns auch für ein LLM entscheiden können, aber wir haben uns dafür entschieden, es auf diese kurzen Phrasen zu beschränken, damit wir es auch für Produktanwendungen schnell ausführen können.

Ich habe den Playground ausprobiert, eine Art Bild und Video-Editor, und es hat sehr viel Spaß gemacht. Aber wofür wird SAM noch verwendet?

Die präzise Bild- und Videobearbeitung ist definitiv ein Anwendungsfall, den wir im Playground hervorgehoben haben, und den wir intern für etwa Instagram Edits und andere Produkte verwenden. Intern verwenden wir es auch für die visuelle Datenbeschriftung, also das Datalabeling. SAM1 und SAM2 haben die Datenbeschriftung erheblich beschleunigt. Früher musste man die Begrenzung um das Objekt manuell zeichnen. Mit SAM1 konnte man einfach auf das Objekt klicken und erhielt die Begrenzung. Aber wenn beispielsweise fünf Hunde im Bild waren, musste man manuell auf jeden der fünf Hunde klicken. SAM3 ist wie ein weiterer Schritt zur Beschleunigung dieses Prozesses, denn jetzt kann man einfach „Hund” eingeben und erhält Masken für alle Hunde. Im Rahmen der Einführung von SAM3 haben wir unter anderem mit einem Datenkennzeichnungsunternehmen namens Roboflow zusammengearbeitet. Roboflow ist ein Unternehmen für visuelle Datenkennzeichnung, das SAM1, SAM2 und jetzt auch SAM3 integriert hat.

Das Unternehmen ist begeistert davon, wie sehr SAM die Workflows für die Kunden beschleunigen kann, und zwar in gannz verschiedenen Anwendungsfällen aus der Praxis. In der Medizin beispielsweise müssen manche Wissenschaftler Zellen zählen, genauer gesagt müssen sie manuell zählen, wie viele Zellen sich auf einem Objektträger befinden. Mit SAM3 können Sie jetzt einfach einen Textbefehl wie „Zelle” verwenden oder ein Beispielfeld zeichnen. Eine weitere Möglichkeit, etwas zu spezifizieren, besteht nämlich darin, ein Feld um ein Beispiel zu zeichnen, woraufhin SAM3 alle anderen Beispiele findet.

Es gibt auch industrielle Anwendungsfälle. Die Robotik ist ein weiterer wichtiger Anwendungsbereich, der derzeit im Vordergrund steht. Besonders interessant sind die Videofunktionen und der Echtzeitaspekt, da man beim Navigieren in einer Umgebung alle verschiedenen Objekte finden muss. Wenn man beispielsweise einen Roboter hat, der Objekte aufnehmen kann, muss man wissen, wo sich die Objekte befinden.

Datenbeschriftung kann für alles Mögliche verwendet werden. Zum Beispiel in einer industriellen Fertigungslinie, in der eine neue Komponente hergestellt werden soll und man zählen möchte, wie viele Komponenten produziert werden.

Früher mussten Menschen alles anklicken und beschreiben, heute ist das also viel einfacher und schneller, nicht wahr?

Ja. Es ist wie eine Automatisierung dieses Prozesses. Früher musste man alles manuell machen. Jetzt können wir dieses Modell in den Kreislauf einbinden, man nimmt vielleicht ein paar Korrekturen vor, aber dann sind 80 % der Vorhersagen ungefähr richtig. Das beschleunigt den gesamten Prozess.

Jetzt haben wir SAM im Playground als Editor, wir haben SAM für die Datenbeschriftung. Entwickler können SAM3 frei verwenden. Wie geht es weiter? In welche Richtung arbeiten Sie?

Der Forschungsteil ist wirklich grundlegend. Wir betrachten es gerne unter dem Gesichtspunkt: „Was ist eine grundlegende Innovation, die dann viele neue Anwendungsfälle nachgelagert ermöglicht?“ Die Anwendungsfälle im Bereich der Bearbeitung machen Spaß. Aber all diese Anwendungsfälle aus der Praxis zeigen vor allem, dass das Modell über Generalisierungsfähigkeiten verfügt.


SAM erkennt Käse, Brettchen, und andere Kleinteile auf einem Tisch.

SAM erkennt Käse, Brettchen, und andere Kleinteile auf einem Tisch.

Alle Objekte eines Bildes werden erkannt.

Die Entwicklertools, sozusagen der Code und die Modelle, veröffentlichen wir, weil wir von der Community profitieren, die darauf aufbaut. Einige der Dinge, die die Community auf SAM2 aufgebaut hat, haben wir tatsächlich für SAM3 verwendet. Es handelt sich um neue Benchmarks und einige Modellverbesserungen, die die Open-Source-Community vorgenommen hat. Und es gab einige neue Datensätze, die die Community erstellt hat.

Deshalb halten Sie an der offenen Strategie fest, richtig?

Ja, für SAM war es wirklich sehr wirkungsvoll, diese Komponente zu haben.

Was ist das nächste größere, vielleicht grundlegende Problem? Gibt es ein größeres Ziel, auf das Sie hinarbeiten?

Ich denke, eines der Dinge, die wir in der SAM3-Veröffentlichung gezeigt haben, ist, wie SAM3 mit MLLM, multimodalen großen Sprachmodellen, eine visuelle Grundkomponente sein kann. SAM3 ist beispielsweise sehr gut in der Lokalisierung, also der Vorhersage der pixelgenauen Maske, während MLLMs sehr gut im Schlussfolgern und Planen sind und über all dieses zusätzliche Wissen über die Welt verfügen. Wir haben bereits gezeigt, wie man ein MLLM mit SAM3 kombinieren kann, um komplexere visuelle Aufgaben zu lösen. SAM3 ist also so etwas wie die Augen, das MLLM ist wie das Gehirn, und sie arbeiten zusammen. Dieses Experiment haben wir bei der SAM-3-Veröffentlichung vorgestellt. Ich denke, das ist definitiv eine sehr interessante Richtung für die Zukunft.

Und glauben Sie, dass dies für eine AGI (Artificial General Intelligence) oder eine AMI (Artificial Machine Intelligence) oder eine Superintelligenz oder etwas in der Art notwendig ist?

Auf jeden Fall für die Robotik. Die Robotik ist ein gutes Beispiel, weil sie viele verschiedene Anwendungsfälle umfasst: Etwa um verkörperte Agenten zu haben, die sich in der Welt bewegen und dann Aufgaben ausführen können, die die Lokalisierung und Verfolgung von Objekten erfordern. Da ist es eine enorm wichtige Fähigkeit. Und ganz allgemein: Wie kann man Vision und Sprache enger miteinander verbinden? Denn wie Sie wissen, ist die Menge an visuellen Daten, die wir in der Welt haben, deutlich größer als die Menge an Textdaten. Es ist entscheidend, visuelle Inhalte so tiefgreifend wie Textdaten verbinden und verstehen zu können. Wir brauchen die Augen, und die Augen sind im Moment im Vergleich zu den menschlichen Augen noch sehr primitiv.

Was können wir in naher Zukunft erwarten?

Es gibt einige kurzfristige Ziele, die wir erreichen möchten, beispielsweise das Modell etwas schneller zu machen. Derzeit ist es bei Bildern sehr schnell. Bei Videos ist es für etwa fünf Objekte in Echtzeit schnell, aber dann skaliert die Inferenzzeit mit der Anzahl der Objekte. Wir haben also einige Ideen, wie wir die Inferenz schneller machen können. Es gibt ein paar Dinge, die wir umsetzen möchten und die leicht zu erreichen sind.

Ich habe mich gefragt, ob klassische Freisteller, vielleicht für Produkte in Online-Shops, ein Anwendungsfall sind? Oder ist das für SAM viel zu einfach? Es gibt ja auch SAM 3D.

SAM 3D ist ein separates Modell. Wir haben also tatsächlich drei verschiedene Modelle veröffentlicht. SAM 3, SAM 3D Objects und SAM 3D Body. Für den von Ihnen genannten Anwendungsfall könnten SAM 3 und SAM 3D Objects eine gute Lösung sein. Wir haben dies tatsächlich mit Facebook Marketplace umgesetzt. Wir haben eine Funktion entwickelt, mit der jeder Verkäufer von Wohnaccessoires auf Facebook Marketplace die Möglichkeit hat, sein Angebot in ein 3D-Objekt umzuwandeln, das der Käufer dann in Augmented Reality betrachten kann. Dabei wird SAM 3 verwendet, um das Objekt zu maskieren, und dann mit SAM 3D in 3D umgewandelt. Das war ein Projekt, an dem ich besonders gerne mitgearbeitet habe, weil ich glaube, dass wir uns so etwas vor fünf Jahren noch nicht hätten vorstellen können, und jetzt können wir es tun.


Ein Sessel wird mittels Prompt zum 3D-Objekt.

Ein Sessel wird mittels Prompt zum 3D-Objekt.

Ein Sessel wird mittels Prompt zum 3D-Objekt.

(Bild: Meta)

Und wo liegen die Grenzen? Ich glaube, ich habe gelesen, dass die Hände das Problem für SAM 3D Body sind. Es sind immer die Hände.

Es gibt unterschiedliche Einschränkungen für verschiedene Modelle. Ich denke, die Einschränkung des SAM 3-Modells liegt eindeutig in den kurzen Textphrasen. Das ist etwas, das wir hoffentlich lösen können. Es gibt auch sehr nischenhafte Bereiche, die spezielles Wissen erfordern. Zum Beispiel die Interpretation von Röntgenbildern. Wir haben dieses Wissen nicht in das Modell integriert, da wir keine Daten dafür haben. Für solche Anwendungsfälle müssen also Daten gesammelt und das Modell feinabgestimmt werden. Wir bieten jedoch Anweisungen zur Feinabstimmung in der Code-Veröffentlichung für SAM 3. Bei SAM 3D gibt es die genannten Handrekonstruktion. Es gibt außerdem Bemühungen, die Geschwindigkeit der SAM 3D-Modelle zu verbessern, damit auch sie schneller laufen können.


(emw)



Source link

Künstliche Intelligenz

Lehramtsstudium: Mehr Pflicht in Sachen Digitalkompetenz und KI bleibt Kür


Auch heute ist es noch möglich, in Deutschland ein Lehramtsstudium ohne den Erwerb von Digitalkompetenzen abzuschließen, da dies nicht überall verpflichtend ist. Und geht es um den Erwerb von KI-Kompetenzen im Lehramtsstudium, sieht es auf der Angebotsseite der Hochschulen noch dürftig aus. Selbst der freiwillige Erwerb ist momentan kaum möglich. Das geht aus dem aktuellen „Monitor Lehrkräftebildung“ hervor.

Weiterlesen nach der Anzeige

Der Monitor ist ein gemeinsames Projekt der Bertelsmann Stiftung, des CHE (Centrum für Hochschulentwicklung), der Robert Bosch Stiftung und des Stifterverbands. Dem aktuellen Factsheet zufolge gibt es zwar seit dem Jahr 2020 deutlich erkennbare Fortschritte bei der Verankerung des Themas „Medienkompetenz in einer digitalen Welt“ als verpflichtender Bestandteil des Lehramtsstudiums an den Hochschulen. Allerdings konnten im Jahr 2024 immer noch gut ein Drittel der zukünftigen Lehrkräfte ihr Studium ohne einen entsprechenden Erwerb abschließen. Im Jahr 2020 mussten sich nur zwischen 15 und 25 Prozent der Studierenden verpflichtend mit diesem Thema beschäftigen. Im Jahr 2024 lagen die Werte zwischen 64 und 74 Prozent.


Screenshot aus dem Facesheet mit Balkendiagramm und Deutschlandkarte

Screenshot aus dem Facesheet mit Balkendiagramm und Deutschlandkarte

Verpflichtende Studiumsbestandteile zum Erwerb von KI-Kompetenzen gibt es bisher kaum.

(Bild: Monitor Lehrkräftebildung)

Die Zahlen für verpflichtende Angebote für den Erwerb von KI-Kompetenzen im Lehramtsstudium waren im Jahr 2024/2025 wesentlich geringer. Sie bewegten sich nur zwischen 7 und knapp 10 Prozent. Wie der Monitor angibt, waren aber auch die optionalen Angebote noch rar. Zum Zeitpunkt der Befragung gab es diese lediglich an rund einem Viertel der Standorte. Nur Rheinland-Pfalz hatte im Wintersemester 2024/2025 als erstes Bundesland Künstliche Intelligenz als Querschnittsthema im Lehramtsstudium festgeschrieben.

Andrea Frank, stellvertretende Generalsekretärin des Stifterverbands, kritisiert dies: „Es gibt zwar Fortschritte, dennoch sind die Ergebnisse alles andere als zufriedenstellend. Damit Schülerinnen und Schüler die Chance haben, Medienkompetenz systematisch zu entwickeln, müssen die Lehrkräfte von heute und morgen diese Kompetenzen selbst verbindlich erwerben.“ Lehrkräften komme eine Schlüsselrolle zu, damit Schülerinnen und Schüler an der digitalen Welt kompetent, kritisch und sicher teilhaben können, unterstreicht der Stifterverband. Der Erwerb von Digitalkompetenzen müsse deshalb gleichzeitig fest in den Lehrplänen der einzelnen Fachdidaktiken und Bildungswissenschaften verankert werden. Dies sei bislang in dieser Form nur an 43 Prozent der Hochschulen gegeben. Dabei habe die Kultusministerkonferenz (KMK) der Länder, wie es im Monitor heißt, bereits im Jahr 2016 mit der Strategie „Bildung in der digitalen Welt“ das Ziel vorgegeben, „digitalisierungsbezogene Kompetenzen in den bildungswissenschaftlichen und fachbezogenen Inhalten in allen Lehramtsstudiengängen zu implementieren“.

In Bezug auf den Erwerb von KI-Kompetenzen erklärte Frank Ziegele, Geschäftsführer des CHE: „Die Daten zeigen: Bei KI-Kompetenzen im Lehramtsstudium stehen wir noch am Anfang. Jetzt gilt es, das Thema dringend in die Fläche zu bringen – durch klare Rahmenbedingungen der Länder und vor allem durch den Gestaltungswillen der Hochschulen. Wenn beide Ebenen zusammenspielen, kann aus einem zögerlichen Start ein echter Entwicklungssprung werden.“

Weiterlesen nach der Anzeige

Ein aktuelles Orientierungspapier des Forum Bildung Digitalisierung hat derweil ein negatives Bild für den Erwerb von KI-Kompetenzen bereits im Dienst befindlicher Lehrkräfte und Schulleitungen gezeichnet. Auch Fort- und Weiterbildungsangebote haben demnach deutlich aufzuholen.

Die Daten des aktuellen Monitor Lehrkräftebildung stammen aus einer Selbstauskunft der lehrkräftebildenden Hochschulen und der 16 Bundesländer im Rahmen einer Online-Befragung, die zuletzt zwischen Oktober 2024 und Januar 2025 durchgeführt wurde. An der Befragung beteiligten sich 67 von 71 lehrkräftebildenden Hochschulen.


(kbe)



Source link

Weiterlesen

Künstliche Intelligenz

Über acht Milliarden Zahlungen: Girocard baut Führungsrolle aus


Die Girocard bleibt das Maß der Dinge im deutschen Bezahlkartengeschäft. 2025 wurde die Debitkarte der deutschen Kreditwirtschaft rund 8,3 Milliarden Mal eingesetzt. Gegenüber dem Vorjahr entspricht das einem Plus von 4,8 Prozent. Der Umsatz liegt mit rund 308 Milliarden Euro allerdings nur knapp über dem Vorjahresniveau.

Weiterlesen nach der Anzeige

Parallel dazu wuchs die Akzeptanz im Handel deutlich. 2025 bezahlten Kunden erstmals an bis zu 1.344.000 aktiven Terminals, was einem Anstieg von 11,3 Prozent entspricht. Ob im Einzelhandel, in der Gastronomie oder bei Dienstleistern: Die Karte bleibt damit nahezu flächendeckend einsetzbar. Auch für Händler bleibt die Girocard attraktiv, weil sie vergleichsweise geringe Gebühren verursacht und eine Zahlungsgarantie bietet.

Niedrigere Beträge werden ebenfalls immer häufiger mit der Girocard beglichen. Bäckereien, Kioske und Verkaufsautomaten akzeptieren zunehmend Kartenzahlungen. Dadurch sank der durchschnittliche Belegbetrag weiter und lag 2025 bei 37,25 Euro (2024 waren es 38,85 Euro).

Kontaktlose Transaktionen dominieren weiterhin: Im Dezember 2025 wurden rund 88,5 Prozent aller Girocard-Zahlungen kontaktlos abgewickelt, ein neuer Höchstwert (2024 waren es 86,8 Prozent).

Neben der physischen Karte gewinnt die digitale Girocard auf Smartphones und Smartwatches an Bedeutung. Sie lässt sich über gängige Wallets oder direkt über Banking-Apps auf iOS- und Android-Geräten nutzen. Durch neue EU-Regeln (Digital Markets Act) können Banken seit Kurzem auch kontaktlose Zahlungen mit der Girocard direkt auf dem iPhone anbieten, ohne auf Apple Pay angewiesen zu sein, etwa über die VR-Banking-App genossenschaftlicher Institute, die die NFC-Schnittstelle nutzt.

Weiterlesen nach der Anzeige

Der Trend zur digitalen Nutzung spiegelt sich in aktuellen Daten wider: Laut einer Untersuchung der Bundesbank bleiben physische Plastikkarten immer häufiger stecken, während ihre digitalen Pendants in Wallets deutlich zulegen. Deren Anteil stieg von rund 5 Prozent im zweiten Halbjahr 2022 auf knapp 16 Prozent in der zweiten Jahreshälfte 2024.

Insgesamt zeigt sich: Die Girocard bleibt das Rückgrat des deutschen Kartenzahlungsverkehrs, sowohl bei den Transaktionszahlen als auch bei der Akzeptanz im Handel. Dennoch sind internationale Anbieter wie Visa und Mastercard insbesondere über Direktbanken im Vormarsch und dominieren auf europäischer Ebene mit einem Marktanteil von 69 Prozent, wie die Untersuchung der Bundesbank zeigt.


(tobe)



Source link

Weiterlesen

Künstliche Intelligenz

Dell schließt unzählige Sicherheitslücken in Avamar, iDRAC und NetWorker


Die Entwickler von Dell haben in Avamar und NetWorker massenhaft Schwachstellen in Komponenten wie Apache Tomcat und Spring Security geschlossen, die die Backuplösungen nutzen. Die Server-Fernverwaltung iDRAC bekommt ebenfalls ein Sicherheitsupdate.

Weiterlesen nach der Anzeige

In drei Warnmeldungen listet Dell die nun geschlossenen Sicherheitslücken in Komponenten von Drittanbietern auf, die Avamar und NetWorker betreffen.

Darunter fallen Komponenten wie Apache HTTP Server, Expat, OpenSSL und Vim. Der Großteil der geschlossenen Lücken stammt aus dem Jahr 2025. Darunter sind auch „kritische“ Schwachstellen (etwa Samba CVE-2025-10230), über die Schadcode auf Systeme gelangen kann. Es wurden aber auch Lücken geschlossen, die schon über zehn Jahre alt sind (zum Beispiel Apache HttpClient CVE-2015-5262 „mittel“).

Server-Admins sollten iDRAC-Service-Module für Linux und Windows auf den aktuellen Stand bringen. Geschieht das nicht, können sich Angreifer mit niedrigen Nutzerrechten aufgrund von Fehlern bei der Zugriffskontrolle höhere Nutzerrechte verschaffen (CVE-2026-23856). In einer Warnmeldung versichern die Entwickler, das Sicherheitsproblem in der Ausgabe 5.4.1.1 gelöst zu haben. Alle vorigen Versionen sollen verwundbar sein.

Weiterlesen nach der Anzeige


(des)



Source link

Weiterlesen

Beliebt