Connect with us

Künstliche Intelligenz

Meta liefert mit SAM die Augen für multimodale Sprachmodelle


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

SAM steht für „Segment Anything Model“. Mit diesem KI-Modell ist es möglich, Objekte und sogar Audio aus Bildern und Videos zu segmentieren – einfach per Prompt. Die neueste Version von SAM – SAM 3 – ist in drei Varianten verfügbar: SAM 3, SAM 3D und SAM 3 Body. Wir haben mit Nikhila Ravi, Forschungsingenieurin bei Meta, über Anwendungsfälle und die Funktionsweise von SAM gesprochen.

Weiterlesen nach der Anzeige

Was genau ist SAM? Ist es ein neues Modell? Ist es generative KI? Es handelt sich nicht um ein großes Sprachmodell an sich.

SAM ist also eigentlich eine Reihe von Modellen, die wir in den vergangenen vier Jahren entwickelt haben. Wir haben am Projekt „Segment Anything” gearbeitet. 2023 haben wir SAM1 veröffentlicht. Mit SAM1 kann man auf ein Objekt zeigen oder klicken, woraufhin das Modell die pixelgenaue Grenze des angeklickten Objekts vorhersagt. SAM1 war nur für Bilder gedacht. Im Jahr 2024 haben wir dann SAM2 veröffentlicht, das dasselbe tat, aber in Videos. Jetzt können Sie auf ein Objekt klicken und erhalten die pixelgenaue Begrenzung dieses Objekts in jedem einzelnen Frame des Videos. SAM3 ist ein völlig neues Modell, bei dem Sie nun mit Text oder visuellen Beispielen angeben können, was Sie umreißen möchten.


Nikhila Ravi

Nikhila Ravi

Nikhila Ravi, Research Engineer bei Meta FAIR.

(Bild: [Link auf https://www.nikhilaravi.com/])

Damit meine ich, dass man beispielsweise nicht mehr auf jede einzelne Person klicken muss, sondern einfach den Text „Person“ eingeben kann und das Modell automatisch jede einzelne Person findet und die Grenze um sie herum zeichnet. Wir haben also eine völlig neue Schnittstelle geschaffen, um Segmentierungen vornehmen zu können.

Der entscheidende Unterschied zu generativen Modellen besteht vielleicht darin, dass SAM eine pixelgenaue Wahrscheinlichkeit vorhersagt, ob dieses Pixel zum Zielobjekt gehört. Es generiert keine neuen Pixel, sondern markiert sozusagen mit einem Textmarker etwas, das bereits im Bild vorhanden ist.

Man kann einfach „Person” sagen, oder einen anderen Prompt schreiben, und SAM findet die Person im Bild. Gibt es in SAM so etwas wie ein großes Sprachmodell, das für diesen Prozess verwendet wird?

Das ist eine gute Frage. Eines der Dinge, die wir unbedingt erreichen wollten, war die Implementierung einer solchen offenen Vokabular-Textschnittstelle. Aber wir haben uns dann doch dafür entschieden, uns auf kurze Textphrasen zu beschränken. „Person“ ist also ein sehr einfaches Beispiel. Man kann auch komplexere Dinge wie „gelber Schulbus“ oder „rot gestreifter Regenschirm“ eingeben. Es sind jedoch nur zwei oder drei Wörter möglich, also kurze Phrasen. Der Grund dafür ist, dass wir kein großes Sprachmodell innerhalb des Modells verwenden wollen, sondern einen kleinen Text-Encoder haben.

Weiterlesen nach der Anzeige

Denn wir verwenden SAM3 für viele Anwendungsfälle in der Praxis, darunter auch für einige Produkte bei Meta, und es muss schnell sein. Wir hätten uns auch für ein LLM entscheiden können, aber wir haben uns dafür entschieden, es auf diese kurzen Phrasen zu beschränken, damit wir es auch für Produktanwendungen schnell ausführen können.

Ich habe den Playground ausprobiert, eine Art Bild und Video-Editor, und es hat sehr viel Spaß gemacht. Aber wofür wird SAM noch verwendet?

Die präzise Bild- und Videobearbeitung ist definitiv ein Anwendungsfall, den wir im Playground hervorgehoben haben, und den wir intern für etwa Instagram Edits und andere Produkte verwenden. Intern verwenden wir es auch für die visuelle Datenbeschriftung, also das Datalabeling. SAM1 und SAM2 haben die Datenbeschriftung erheblich beschleunigt. Früher musste man die Begrenzung um das Objekt manuell zeichnen. Mit SAM1 konnte man einfach auf das Objekt klicken und erhielt die Begrenzung. Aber wenn beispielsweise fünf Hunde im Bild waren, musste man manuell auf jeden der fünf Hunde klicken. SAM3 ist wie ein weiterer Schritt zur Beschleunigung dieses Prozesses, denn jetzt kann man einfach „Hund” eingeben und erhält Masken für alle Hunde. Im Rahmen der Einführung von SAM3 haben wir unter anderem mit einem Datenkennzeichnungsunternehmen namens Roboflow zusammengearbeitet. Roboflow ist ein Unternehmen für visuelle Datenkennzeichnung, das SAM1, SAM2 und jetzt auch SAM3 integriert hat.

Das Unternehmen ist begeistert davon, wie sehr SAM die Workflows für die Kunden beschleunigen kann, und zwar in gannz verschiedenen Anwendungsfällen aus der Praxis. In der Medizin beispielsweise müssen manche Wissenschaftler Zellen zählen, genauer gesagt müssen sie manuell zählen, wie viele Zellen sich auf einem Objektträger befinden. Mit SAM3 können Sie jetzt einfach einen Textbefehl wie „Zelle” verwenden oder ein Beispielfeld zeichnen. Eine weitere Möglichkeit, etwas zu spezifizieren, besteht nämlich darin, ein Feld um ein Beispiel zu zeichnen, woraufhin SAM3 alle anderen Beispiele findet.

Es gibt auch industrielle Anwendungsfälle. Die Robotik ist ein weiterer wichtiger Anwendungsbereich, der derzeit im Vordergrund steht. Besonders interessant sind die Videofunktionen und der Echtzeitaspekt, da man beim Navigieren in einer Umgebung alle verschiedenen Objekte finden muss. Wenn man beispielsweise einen Roboter hat, der Objekte aufnehmen kann, muss man wissen, wo sich die Objekte befinden.

Datenbeschriftung kann für alles Mögliche verwendet werden. Zum Beispiel in einer industriellen Fertigungslinie, in der eine neue Komponente hergestellt werden soll und man zählen möchte, wie viele Komponenten produziert werden.

Früher mussten Menschen alles anklicken und beschreiben, heute ist das also viel einfacher und schneller, nicht wahr?

Ja. Es ist wie eine Automatisierung dieses Prozesses. Früher musste man alles manuell machen. Jetzt können wir dieses Modell in den Kreislauf einbinden, man nimmt vielleicht ein paar Korrekturen vor, aber dann sind 80 % der Vorhersagen ungefähr richtig. Das beschleunigt den gesamten Prozess.

Jetzt haben wir SAM im Playground als Editor, wir haben SAM für die Datenbeschriftung. Entwickler können SAM3 frei verwenden. Wie geht es weiter? In welche Richtung arbeiten Sie?

Der Forschungsteil ist wirklich grundlegend. Wir betrachten es gerne unter dem Gesichtspunkt: „Was ist eine grundlegende Innovation, die dann viele neue Anwendungsfälle nachgelagert ermöglicht?“ Die Anwendungsfälle im Bereich der Bearbeitung machen Spaß. Aber all diese Anwendungsfälle aus der Praxis zeigen vor allem, dass das Modell über Generalisierungsfähigkeiten verfügt.


SAM erkennt Käse, Brettchen, und andere Kleinteile auf einem Tisch.

SAM erkennt Käse, Brettchen, und andere Kleinteile auf einem Tisch.

Alle Objekte eines Bildes werden erkannt.

Die Entwicklertools, sozusagen der Code und die Modelle, veröffentlichen wir, weil wir von der Community profitieren, die darauf aufbaut. Einige der Dinge, die die Community auf SAM2 aufgebaut hat, haben wir tatsächlich für SAM3 verwendet. Es handelt sich um neue Benchmarks und einige Modellverbesserungen, die die Open-Source-Community vorgenommen hat. Und es gab einige neue Datensätze, die die Community erstellt hat.

Deshalb halten Sie an der offenen Strategie fest, richtig?

Ja, für SAM war es wirklich sehr wirkungsvoll, diese Komponente zu haben.

Was ist das nächste größere, vielleicht grundlegende Problem? Gibt es ein größeres Ziel, auf das Sie hinarbeiten?

Ich denke, eines der Dinge, die wir in der SAM3-Veröffentlichung gezeigt haben, ist, wie SAM3 mit MLLM, multimodalen großen Sprachmodellen, eine visuelle Grundkomponente sein kann. SAM3 ist beispielsweise sehr gut in der Lokalisierung, also der Vorhersage der pixelgenauen Maske, während MLLMs sehr gut im Schlussfolgern und Planen sind und über all dieses zusätzliche Wissen über die Welt verfügen. Wir haben bereits gezeigt, wie man ein MLLM mit SAM3 kombinieren kann, um komplexere visuelle Aufgaben zu lösen. SAM3 ist also so etwas wie die Augen, das MLLM ist wie das Gehirn, und sie arbeiten zusammen. Dieses Experiment haben wir bei der SAM-3-Veröffentlichung vorgestellt. Ich denke, das ist definitiv eine sehr interessante Richtung für die Zukunft.

Und glauben Sie, dass dies für eine AGI (Artificial General Intelligence) oder eine AMI (Artificial Machine Intelligence) oder eine Superintelligenz oder etwas in der Art notwendig ist?

Auf jeden Fall für die Robotik. Die Robotik ist ein gutes Beispiel, weil sie viele verschiedene Anwendungsfälle umfasst: Etwa um verkörperte Agenten zu haben, die sich in der Welt bewegen und dann Aufgaben ausführen können, die die Lokalisierung und Verfolgung von Objekten erfordern. Da ist es eine enorm wichtige Fähigkeit. Und ganz allgemein: Wie kann man Vision und Sprache enger miteinander verbinden? Denn wie Sie wissen, ist die Menge an visuellen Daten, die wir in der Welt haben, deutlich größer als die Menge an Textdaten. Es ist entscheidend, visuelle Inhalte so tiefgreifend wie Textdaten verbinden und verstehen zu können. Wir brauchen die Augen, und die Augen sind im Moment im Vergleich zu den menschlichen Augen noch sehr primitiv.

Was können wir in naher Zukunft erwarten?

Es gibt einige kurzfristige Ziele, die wir erreichen möchten, beispielsweise das Modell etwas schneller zu machen. Derzeit ist es bei Bildern sehr schnell. Bei Videos ist es für etwa fünf Objekte in Echtzeit schnell, aber dann skaliert die Inferenzzeit mit der Anzahl der Objekte. Wir haben also einige Ideen, wie wir die Inferenz schneller machen können. Es gibt ein paar Dinge, die wir umsetzen möchten und die leicht zu erreichen sind.

Ich habe mich gefragt, ob klassische Freisteller, vielleicht für Produkte in Online-Shops, ein Anwendungsfall sind? Oder ist das für SAM viel zu einfach? Es gibt ja auch SAM 3D.

SAM 3D ist ein separates Modell. Wir haben also tatsächlich drei verschiedene Modelle veröffentlicht. SAM 3, SAM 3D Objects und SAM 3D Body. Für den von Ihnen genannten Anwendungsfall könnten SAM 3 und SAM 3D Objects eine gute Lösung sein. Wir haben dies tatsächlich mit Facebook Marketplace umgesetzt. Wir haben eine Funktion entwickelt, mit der jeder Verkäufer von Wohnaccessoires auf Facebook Marketplace die Möglichkeit hat, sein Angebot in ein 3D-Objekt umzuwandeln, das der Käufer dann in Augmented Reality betrachten kann. Dabei wird SAM 3 verwendet, um das Objekt zu maskieren, und dann mit SAM 3D in 3D umgewandelt. Das war ein Projekt, an dem ich besonders gerne mitgearbeitet habe, weil ich glaube, dass wir uns so etwas vor fünf Jahren noch nicht hätten vorstellen können, und jetzt können wir es tun.


Ein Sessel wird mittels Prompt zum 3D-Objekt.

Ein Sessel wird mittels Prompt zum 3D-Objekt.

Ein Sessel wird mittels Prompt zum 3D-Objekt.

(Bild: Meta)

Und wo liegen die Grenzen? Ich glaube, ich habe gelesen, dass die Hände das Problem für SAM 3D Body sind. Es sind immer die Hände.

Es gibt unterschiedliche Einschränkungen für verschiedene Modelle. Ich denke, die Einschränkung des SAM 3-Modells liegt eindeutig in den kurzen Textphrasen. Das ist etwas, das wir hoffentlich lösen können. Es gibt auch sehr nischenhafte Bereiche, die spezielles Wissen erfordern. Zum Beispiel die Interpretation von Röntgenbildern. Wir haben dieses Wissen nicht in das Modell integriert, da wir keine Daten dafür haben. Für solche Anwendungsfälle müssen also Daten gesammelt und das Modell feinabgestimmt werden. Wir bieten jedoch Anweisungen zur Feinabstimmung in der Code-Veröffentlichung für SAM 3. Bei SAM 3D gibt es die genannten Handrekonstruktion. Es gibt außerdem Bemühungen, die Geschwindigkeit der SAM 3D-Modelle zu verbessern, damit auch sie schneller laufen können.


(emw)



Source link

Künstliche Intelligenz

Google gegen Epic: 800-Millionen-Deal ist Teil der außergerichtlichen Einigung


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Im vergangenen November haben sich Google und Epic im Android-Streit überraschend außergerichtlich geeinigt. Ihren Streit über die Marktmacht des Android-Ökosystems wollen die beiden Firmen möglicherweise auch deswegen beilegen, weil sich beide Parteien auf einen 800 Millionen US-Dollar schweren Geschäftsdeal einigen konnten. Das ist die Erkenntnis aus einer Gerichtsanhörung, über die das US-Technikmagazin The Verge berichtet.

Weiterlesen nach der Anzeige

Laut The Verge bohrte der zuständige Richter James Donato bei Epic und Google über den Deal nach, der zuvor nicht öffentlich bekannt war. Demnach soll Epic Games über sechs Jahre insgesamt 800 Millionen US-Dollar an Google zahlen. Informationen über den Vertragsinhalt gibt es kaum – laut The Verge geht es um „gemeinsame Produktentwicklung, gemeinsames Marketing und Partnerschaften“. Auch Google profitiert von dem Deal und soll laut Gerichtsaussage von Epic-Chef Tim Sweeney in der Lage sein, die von Epic entwickelte Unreal Engine umfangreicher zu benutzen.

Im vergangenen November haben sich Epic und Google nach jahrelangem Gerichtsstreit über die Marktmacht des Android-Ökosystems überraschend auf einen außergerichtlichen Kompromiss geeinigt. Weltweit sollen nach dem neuen Vorschlag unabhängige App-Stores einen besseren Stand genießen, solange sie unter anderem den Sicherheitsanforderungen von Google genügen. Solche App-Stores könnten als „Registered App Stores“ eingestuft werden, mehr Privilegien genießen und für mehr Wettbewerb im Android-Ökosystem sorgen.

Diese Übereinkunft haben Epic und Google dem zuständigen Richter James Donato vorgelegt, der sie noch absegnen muss. Laut The Verge sah Richter James Donato die Übereinkunft kritisch. Er befürchtet möglicherweise, dass Epic Games seine Ansprüche gegen Google zurückgeschraubt haben könnte, um den Vertrag zu vorteilhaften Bedingungen abschließen zu können.

Tatsächlich räumte Sweeney laut The Verge ein, dass der Geschäftsdeal im Zusammenhang mit der außergerichtlichen Einigung zwischen Epic und Google stehe. Der Vertrag zwischen Epic und Google spiegele aber marktübliche Konditionen wider. Die Entscheidung über die außergerichtlich erreichte Übereinkunft zwischen Epic und Google steht noch aus.


(dahe)



Source link

Weiterlesen

Künstliche Intelligenz

Missing Link: Vor 50 Jahren startete die Concorde in den Liniendienst


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Bei Hummer und Champagner im Überschalltempo über den Atlantik: Das Überschallpassagierflugzeug Concorde bot einen schnellen und luxuriösen Transfer nach New York. Vor 50 Jahren flog der schlanke Jet erstmals mit Passagieren an Bord.

Weiterlesen nach der Anzeige

Zwei Maschinen hoben gegen Mittag am 21. Januar 1976 zur gleichen Zeit (11.40 Uhr Londoner Zeit) ab, eine in Paris und eine London – die Concorde war eine britisch-französische Gemeinschaftsentwicklung. Die Concorde von Air France flog über die senegalesische Hauptstadt Dakar nach Rio de Janeiro. British Airways steuerte von London aus das Emirat Bahrain im Persischen Golf an. Die Plätze für die Erstflüge waren teilweise schon Jahre im Voraus reserviert. Die Flüge wurden sogar im Fernsehen übertragen.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Concorde | Technik Museum Sinsheim

Die Concorde war ein Prestigeprojekt der britischen und französischen Luftfahrtindustrie. Sie flog mit rund 2.200 Kilometern pro Stunde und überquerte den Atlantik in weniger als dreieinhalb Stunden – das ist weniger als die Hälfte der Flugzeit mit einer regulären Verkehrsmaschine. Manchmal auch schneller: Am 7. Februar 1996 flog sie von New York nach London in 2 Stunden, 52 Minuten und 59 Sekunden. Drinnen genossen die 100 Passagiere derweil erlesene Speisen und Getränke: Kaviar, Hummer oder Gänseleber mit Trüffeln. Dazu wurde Champagner gereicht.

Frankreich und Großbritannien begannen Ende 1962 mit der Entwicklung des ersten Überschallpassagierflugzeugs und förderten diese massiv. Nach einer Entwicklungszeit von sechs Jahren waren die beiden ersten Prototypen fertig: Concorde 001 flog erstmals am 2. März 1969, Prototyp 002 am 9. April. Am 1. Oktober flog eine Concorde erstmals schneller als Mach 1. Gut ein Jahr später, am 4. November 1970, erreichte sie Mach 2. Das entspricht etwa 1200 km/h respektive 2500 km/h.




Was fehlt: In der rapiden Technikwelt häufig die Zeit, die vielen News und Hintergründe neu zu sortieren. Am Wochenende wollen wir sie uns nehmen, die Seitenwege abseits des Aktuellen verfolgen, andere Blickwinkel probieren und Zwischentöne hörbar machen.

Mit dem Flugzeug schmückten sich die beiden Länder: Die Air-France-Besatzung etwa wurde später von Präsident Valéry Giscard d’Estaing in den Élysée-Palast zum Frühstück eingeladen. Die Staatsoberhäupter beider Länder flogen gern damit. Ein Schauflug gehörte 2002 zum Festprogramm anlässlich des Goldenen Thronjubiläums von Königin Elisabeth II.

Weiterlesen nach der Anzeige

Die Geschwindigkeit der Concorde ermöglichte Air-France Angebote wie einen doppelten Jahreswechsel: Fluggäste feierten ihn zunächst in Paris, stiegen dann in die Concorde und begingen ihn dann noch einmal in New York. Am 13. Juli 1985 beim Live-Aid-Konzert trat der britische Musiker Phil Collins erst in London auf, flog dann mit der Concorde in die USA und spielte noch einmal in Philadelphia. 1999 folgten zwei Maschinen der totalen Sonnenfinsternis über dem Nordatlantik und verlängerten den Insassen so das Naturschauspiel.

Sogar in der DDR zeigte sie Präsenz: Im März 1986 landeten zwei Concordes, eine französische und eine britische, in Leipzig anlässlich der dortigen Technikmesse. Eine durfte sogar einen Teil der Strecke mit Überschallgeschwindigkeit fliegen. Überschallflüge über dem europäischen Festland waren der Concorde sonst nicht gestattet.

Dabei gab es jenseits des Eisernen Vorhangs Konkurrenz – und die stahl der Concorde die Show: Drei Wochen vor der Concorde, am 29. Dezember 1975, startete die Tupolew TU-144 zu ihrem ersten kommerziellen Flug. Später wurde allerdings bekannt, dass sie nur Fracht und keine Passagiere an Bord hatte.

1963 begann das Konstruktionsbüro Tupolew mit den Arbeiten, am 31. Dezember 1968 hob die TU-144 zum ersten Mal ab, drei Monate vor der Concorde, am 25. Mai 1970 erreichte sie auch als erstes ziviles Flugzeug doppelte Schallgeschwindigkeit.

Vom Design her sah der sowjetische Überschalljet dem westlichen Pendant verblüffend ähnlich, weshalb die Sowjets der Spionage verdächtigt wurden. Die TU-144 bekam den Spitznamen „Konkordski“.

Technisch war die TU-144 jedoch weniger ausgereift als die Concorde. Beiden hatte sie Deltaflügel. Die der Concorde jedoch aerodynamisch günstiger geformt, was Vorteile beim Langsamflug bot. Die der TU-144 waren einfacher geformt. Für den Langsamflug klappten hinter dem Cockpit zwei Canardflügel aus. Die erledigten zwar effizient ihre Aufgabe, machten die Maschine aber schwerer. Zudem hatte die Concorde modernere, Computer-gesteuerte Triebwerke als die TU-144 und erzielte damit eine größere Reichweite. Leiser als die der TU-144 waren sie auch noch.

Eine echte Konkurrenz war die TU-144 am Ende nicht: 1973 stürzte das erste Serienmodell, die TU-144S, bei einem Demonstrationsflug während der Pariser Luftfahrtmesse ab. Es unterschied sich von dem Prototyp, der den Erstflug absolvierte, in einigen Designmerkmalen. Die nächste Iterationsstufe, die TU-144D, geriet auf einem Testflug am 23. Mai 1978 in Brand und musste notlanden. Daraufhin beendete die Regierung das Projekt TU-144 nach nur 102 Flügen, davon gerade einmal 55 mit Passagieren.



Source link

Weiterlesen

Künstliche Intelligenz

Solaranlagen im Winter: Warum Kälte gut und Schnee oft kein Problem ist


Tiefe Sonne, kurze Tage und obendrauf auch noch Schnee: Da geht die Stromernte von der PV-Anlage in den Keller. Oft reicht es nur gerade so für den Grundverbrauch des Hauses. Der Winter scheint für Besitzer von PV-Anlagen eine verlorene Zeit zu sein. Ein Grund zur Resignation? Keineswegs!

Die kalte Jahreszeit und insbesondere die Übergangszeiten haben ihre eigenen Regeln und bieten sogar versteckte Potenziale. Der Artikel beleuchtet die drei entscheidenden Winterfaktoren, die jetzt ins Spiel kommen: die leistungssteigernde Kälte, die optimale Neigung der Module und der Schnee, der Fluch und Segen zugleich sein kann.

  • Aufgrund der geringen Sonneneinstrahlung erwirtschaften PV-Anlagen im Winter nur etwa 10 Prozent ihres gesamten Jahresertrags.
  • PV-Module arbeiten bei Kälte effizienter, weshalb sie an sonnigen Wintertagen eine überraschend hohe Leistung erbringen können.
  • Durch eine steilere Aufstellung der Module lässt sich der Winterertrag gezielt steigern, auch wenn der Jahresgesamtertrag dadurch leicht sinkt.
  • Das aktive Schneeräumen der Module ist in Deutschland meist nicht lohnenswert, da der geringe Ertragsgewinn das Risiko und den Aufwand nicht rechtfertigt.

Der Artikel zeigt dabei auf, welcher Ertrag im Winter tatsächlich drin ist und ob sich eine gezielte Optimierung auf diese Jahreszeit rechnen kann. Dazu gibt er eine klare Antwort auf die Frage, die sich gerade viele stellen: Sollte man den Schnee von seinen Modulen entfernen oder ist es das Risiko nicht wert?


Das war die Leseprobe unseres heise-Plus-Artikels „Solaranlagen im Winter: Warum Kälte gut und Schnee oft kein Problem ist“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Weiterlesen

Beliebt