Künstliche Intelligenz
Mecklenburg-Vorpommern: Land will schnellere Digitalisierungsverfahren
Die Digitalisierung in Mecklenburg-Vorpommern soll mit vereinfachten Verfahren weiter beschleunigt werden. Durch Änderungen in der Landesbauordnung, dem digitalen Bauantrag und dem Breitbandportal könnten Planungen und Genehmigungen zunehmend schneller abgewickelt werden, hieß es in einer Mitteilung des Innenministeriums in Schwerin.
Weiterlesen nach der Anzeige
„Wir haben heute Möglichkeiten, die uns vor Jahren noch gefehlt haben. Wenn wir sie alle konsequent nutzen, kommen wir deutlich schneller voran“, sagte Innenminister Christian Pegel (SPD).
Hälfte der Fördermittel abgerufen
2015 startete der Bund laut Ministerium das erste Förderprogramm für Glasfaserausbau. Mittlerweile könnten mehr als 60 Prozent der Haushalte im Nordosten einen Glasfaseranschluss nutzen, mit denen sie schnelleres Internet haben. Laut Pegel wurde bislang etwa die Hälfte der Fördermittel in Höhe von fast drei Milliarden Euro abgerufen.
Im September endete nach mehr als sieben Jahren Bauzeit ein großes Ausbauprojekt des Glasfasernetzes im Landkreis Vorpommern-Rügen. Davon profitieren nach früheren Angaben des Landkreises fast 60.000 Haushalte, darunter 1.800 Unternehmen und 80 Schulen in 56 Kommunen des Landkreises. Das Projekt wurde mit Gesamtkosten von knapp 127 Millionen Euro von Bund, Land und Landkreis gefördert.
Unter anderem die CDU hatte in der Vergangenheit kritisiert, dass zu wenige Haushalte im Nordosten Glasfaser haben. Mittelabflüsse aus Förderprogrammen seien hoch, doch beim tatsächlichen Ausbau hinke das Land weiter hinterher, kritisierte der Vorsitzende der CDU-Landtagsfraktion, Daniel Peters, vor mehreren Monaten.
Weiterlesen nach der Anzeige
(kbe)
Künstliche Intelligenz
39C3: „Digital Independence Day“ gegen Tech-Monopole
Im Rahmen eines Vortrags des Schriftstellers Marc-Uwe Kling („Die Känguru-Chroniken“) rief der Chaos Computer Club am Samstagabend zum „Digital Independence Day“ auf. Die Idee: Wenn genügend Menschen andere digitale Dienste als die der großen US-amerikanischen und chinesischen Unternehmen nutzen, lässt sich deren Einfluss auf die eigene Gesellschaft einschränken.
Weiterlesen nach der Anzeige
Die Notwendigkeit dazu sieht der CCC laut einer Mitteilung durch einen „Würgegriff von Big Tech“. Der Verein schreibt darin: „Die Plattformen scheren sich nicht um unsere Gesetze, zersetzen unsere Demokratie und damit unsere Freiheit.“ Besonders sichtbar sei das kürzlich durch die wütenden Reaktionen von Elon Musk auf eine durch die EU nach dem Digital Services Act (DSA) verhängte Millionenstrafe gegen dessen Plattform X geworden, das frühere Twitter. Die darauf folgenden Sanktionen gegen HateAid und den früheren EU-Kommissar Thierry Breton sieht der Verein als weiteres Alarmsignal.
Jeder 1. Sonntag als Digital Independence Day
Folglich schlägt der CCC die Nutzung von Mastodon statt X, aber etwa auch Signal als Alternative zu WhatsApp vor. Dabei sollen ab dem 4. Januar 2026 an jedem ersten Sonntag eines Monats Wechselpartys in den verschiedenen Hackerspaces des CCC sowie bei weiteren Unterstützern der Initiative stattfinden. Das Ziel ist, auch technisch weniger interessierten Menschen den Umstieg zu erleichtern und die Vorteile von anderen Lösungen zu zeigen. Bei Social Media und Messengern macht das nicht halt: Auch der Wechsel von Windows 10, welches das Ende seines Support-Zeitraums erreicht hat, zu Linux wird empfohlen.
In die gleiche Kerbe schlug am Sonntag, dem zweiten Tag des 39C3, der kanadisch-britische Autor und Aktivist Cory Doctorow. In seinem Vortrag entwarf er das Konzept eines „post-amerikanischen Internets“. Doctorow prägte 2022 den Begriff der „Enshittification“, der unter anderem beschreibt, wie die Bedingungen für Nutzer in digitalen Plattformen absichtlich immer schlechter gemacht werden, weil sie unwillig sind, diese zu verlassen. Ergänzend zum zivilgesellschaftlichen Widerstand wie beim „Digital Independence Day“ sieht Doctorow auch politisches Handeln als zentral an, um digitale Monopole aufzubrechen.
Cory Doctorow: Software-Schutz abschaffen
Der wichtigste Hebel dafür sei eine Abschaffung des rechtlichen Schutzes von Software vor deren Veränderung. Unter dem Deckmantel von „Kopierschutz“, Urheberrecht und Geschäftsgeheimnissen sperrten viele De-facto-Monopolisten ihre Kunden in goldene Käfige, welche kaum aufzubrechen seien. Doctorow nannte als Beispiel Apples 30-Prozent-Anteil für Transaktionen, die durch Apps aus dem Apple-Store angestoßen werden, oder die Reparaturfeindlichkeit des Landmaschinenherstellers John Deere.
Weiterlesen nach der Anzeige
Erst wenn diese rechtlichen Schutzmechanismen nicht mehr existierten, könnte sich wieder ein gesunder Wettbewerb entwickeln. Es sei dann nicht mehr möglich, dass Unternehmen sich zu Monopolen entwickeln, indem sie ihren Kunden durch rechtliche Kniffe Reparatur, Weiterentwicklung und Wechsel erschwerten, so Doctorow.
Getragen wird die Initiative zum Digital Independence Day alias „Di.Day“ von der gemeinnützigen Gesellschaft „Save Social“, die auch eine FAQ zu dem Vorhaben bereithält. Neben dem Chaos Computer Club zählen zu den Unterstützern unter anderem der Verein Digitale Gesellschaft, die Gesellschaft für Informatik, Nextcloud und Wikimedia Deutschland.
Lesen Sie auch
(nie)
Künstliche Intelligenz
„Armut tötet“: Warum „KI“ das Gesundheitswesen nicht retten kann
Auf dem 39. Chaos Communication Congress analysierte Manuel Hofmann von der Deutschen Aidshilfe in seinem Vortrag „‘KI’, Digitalisierung und Longevity als Fix für ein kaputtes Gesundheitssystem?“ die überzogenen Technologie-Versprechen für das deutsche Gesundheitssystem. Sein Vortrag offenbarte eine gefährliche Mischung aus naiver Technikgläubigkeit, libertärer Ideologie und dem systematischen Ausblenden sozialer Ungleichheiten.
Weiterlesen nach der Anzeige
Betrachte man die Schlagzeilen, stecke das deutsche Gesundheitswesen in einer veritablen Krise: Die Kosten explodieren, der demografische Wandel rollt unaufhaltsam auf das System zu, und in den nächsten zehn bis fünfzehn Jahren werden Hunderttausende Beschäftigte in Rente gehen. Zugleich kommen geburtenstarke Jahrgänge in ein Alter, in dem sie häufiger krank und pflegebedürftig werden. Der Charité-Chef warne vor dem Kollaps, der GKV-Spitzenverband schlage Alarm, und Deutschland lande bei der Krankheitsprävention auf dem vorletzten Platz einer internationalen Erhebung.
Die Antwort der Politik und der Gesundheitswirtschaft auf diese strukturellen Probleme folge einem erstaunlich einheitlichen Muster, erklärte Hofmann: Technologie soll es richten. In der Digitalisierungsstrategie des Bundesgesundheitsministeriums (PDF) aus dem Jahr 2023 heiße es: „Die Digitalisierung in der Gesundheits- und Pflegeversorgung ermöglicht ein gesünderes und längeres Leben für alle.“ Doch wie realistisch sind diese Versprechen tatsächlich?
Die Effizienz-Illusion: Wenn Charité-Chefs von KI-Ersatz träumen
In seiner Analyse verdeutlichte Hofmann die Dimensionen der Realitätsferne mit konkreten Aussagen führender Gesundheitsmanager. Prof. Dr. Heyo K. Kroemer, Vorstandsvorsitzender der Charité – Europas größtem Universitätsklinikum –, erklärte demnach in einem Tagesthemen-Interview, dass innerhalb der nächsten zehn Jahre ein Drittel seiner Mitarbeiter in Rente gehen werde. Hofmann zitierte Kroemers Schlussfolgerung: „Insofern haben wir ganz klar die Zielsetzung, innerhalb einer Dekade ein Drittel der Mitarbeiter durch diese Technologien ersetzen zu können.“
Hofmann konterte diese Aussage mit Verweis auf die Geschichte der Digitalisierung im Gesundheitswesen: „Ich erinnere noch mal daran: Wir haben vor 20 Jahren die erste Idee zur elektronischen Patientenakte bekommen.“ Die elektronische Patientenakte, das Vorzeigeprojekt der Gesundheitsdigitalisierung, war auf dem Chaos Communication Congress vor genau einem Jahr Gegenstand vernichtender Kritik – Sicherheitsforscher hatten zahlreiche technische Mängel aufgezeigt. Vor diesem Hintergrund erscheine die Vorstellung, innerhalb von zehn Jahren ein Drittel des Krankenhauspersonals durch KI zu ersetzen, geradezu unrealistisch, so Hofmann.
Noch weiter gehe es in einem von Siemens Healthineers gesponserten Meinungsbeitrag in der Welt, den Hofmann in seinem Vortrag zitierte: „Was können wir dagegen tun? Wir können nicht mehr Ärzte herbeizaubern, aber durch den Einsatz von Technologie versetzen wir sie in die Lage, künftig zehnmal mehr als heute zu leisten. Warum sollte ein Arzt, der heute 1000 Patienten im Quartal behandelt, künftig nicht 10.000 Patienten im Quartal behandeln?“
Weiterlesen nach der Anzeige
Hofmann berichtete, er habe diese These bei einem Workshop auf einem Ärztekongress des Vereins Demokratischer Ärztinnen getestet. Die Reaktion der anwesenden Mediziner auf die Frage, warum sie künftig nicht zehnmal so viele Patienten behandeln könnten, beschrieb er so: „Sie waren so mittelbegeistert und haben sich auch tendenziell nicht über zu laxe Arbeitsbedingungen beschwert.“
Quantencomputing und Krebsprognosen: Die Zukunftsfantasien der Strategieberater
Besonders drastisch illustrierte Hofmann die Weltfremdheit mancher Zukunftsvisionen anhand eines Magazins einer Strategieberatung, das das Gesundheitswesen im Jahr 2030 beschreibt. Die dort geschilderte Szene: Ein Patient sitzt in einer onkologischen Praxis, um seine Krebsprognose zu erfahren – also die Antwort auf die Frage, ob er weiterleben wird. Dieser Patient werde in der Vision als „neugierig“ beschrieben, so Hofmann.
Seine Kritik fiel deutlich aus: „Ich will wirklich nicht, dass die Zukunft unseres Gesundheitswesens von Leuten designt wird, die denken, dass Menschen, die gerade erfahren, ob sie weiterleben können, neugierig in ihrem Behandlungsgespräch sitzen.“ In der Vision errechneten KI-Simulationen, „gestützt auf Quantencomputing“, eine individualisierte Erfolgswahrscheinlichkeit. Die Ärztin habe dann auch viel mehr Zeit für „tolle psycho-onkologische Gespräche“, weil das Administrative wegfalle. Die Diskrepanz zwischen solchen Hochglanz-Szenarien und der Realität eines Gesundheitssystems, das noch immer massiv auf Faxgeräte angewiesen ist, könne kaum größer sein.
Eigenverantwortung als politisches Programm
Parallel zur Technologie-Euphorie etabliere sich laut Hofmanns Analyse ein zweites Narrativ: die Betonung von Eigenverantwortung. Der Referent verwies auf Bundeskanzler Friedrich Merz, der beim Kongress der Maschinenbauer erklärt habe, die Deutschen gingen alle zu häufig zum Arzt.
Ähnlich äußere sich Bundesgesundheitsministerin Nina Warken. Hofmann zitierte sie aus einer Pressekonferenz zum Public Health Report: „Um eine finanzierbare und gute Gesundheitsversorgung für die Zukunft aufzustellen, sind Veränderungen unumgänglich. Und dabei wird auch die Eigenverantwortung der Bürgerinnen und Bürger eben eine zentrale Rolle spielen.“
Diese Entwicklung münde in eine zunehmende digitale Ersteinschätzung, analysierte Hofmann: Bevor Menschen Zugang zum Gesundheitssystem erhalten, sollen Chatbots und Symptomchecker vorfiltern, wer „wirklich“ behandelt werden muss.
Besonders problematisch werde diese Entwicklung im Bereich der psychischen Gesundheit. Angesichts des Mangels an Psychotherapieplätzen werde KI zunehmend als Ersatz diskutiert. Hofmann warnte eindringlich: „Nein, ChatGPT wird nicht den Psychotherapeuten und die Psychotherapeutin ersetzen.“ Als Beleg verwies er auf ein neues Phänomen: die KI-induzierte Psychose. Menschen mit bestehenden Zwangsgedanken erhielten von Sprachmodellen oft bekräftigende Antworten, die ihre Probleme verschärften statt sie zu lindern.
Tech-Milliardäre und der Traum vom ewigen Leben
Ein weiterer Strang von Hofmanns Analyse betraf die Longevity-Bewegung – ein Ansatz, der Langlebigkeit durch eine Kombination aus Technologie, Selbstoptimierung und experimentellen Behandlungen verspricht. Die ideologischen Wurzeln dieser Bewegung lägen im Silicon Valley, bei Tech-Milliardären mit libertären Überzeugungen und dem ausgeprägten Wunsch, nicht sterben zu müssen.
Als prominenten Vertreter nannte Hofmann Ray Kurzweil, KI-Visionär und Chief Technical Officer bei Google. Kurzweil propagiere das Konzept der „Longevity Escape Velocity“ – den Punkt, an dem der medizinische Fortschritt so schnell voranschreite, dass jedes gelebte Lebensjahr ein zusätzliches Jahr Lebenserwartung bringe. Hofmann erläuterte Kurzweils Vision: Man erreiche irgendwann einen Zustand, „wo wir unsere allzu schwächlichen scheiternden Körper hinter uns lassen können“ und wo Krankheit, wie wir sie kennen, ausgerottet werde. Nach Kurzweils Prognosen werde dieser Punkt bereits in wenigen Jahren erreicht sein. „Ich glaube, das Fax wird im deutschen Gesundheitswesen diesen Zeitpunkt um einige Jahrzehnte überleben,“ sagte Hofmann dazu.
Die praktische Ausprägung dieser Ideologie finde sich in Einrichtungen wie Fountain Life, einem laut Hofmann „irrsinnig teuren Longevity-Center“ in den USA, wo wohlhabende Kunden experimentelle Untersuchungen buchen können. Ein Gründer von Fountain Life habe empfohlen, man solle „der CEO der eigenen Gesundheit sein“ – eine Formulierung, die inzwischen auch von deutschen Gesundheitsinfluencern übernommen werde.
Als besonders skurriles Beispiel nannte Hofmann den Longevity-Enthusiasten Brian Johnson, der sich selbst als den bestvermessensten Menschen der Welt bezeichne. Johnson sei bekannt für obsessive Selbstvermessung, die nach Hofmanns Darstellung bisweilen groteske Züge annehme. Er verwies auf einen Artikel der New York Times, der die jahrhundertealte Suche nach dem ewigen Leben analysiert und festgestellt habe, dass diese Suche überwiegend von Männern getrieben ist. Hofmann zog Verbindungen zu sozialpsychologischer Forschung, die nahelege, dass die Verdrängung des Todes in individualistisch organisierten Gesellschaften deutlich verbreiteter sei als in gemeinschaftsorientierten Kulturen.
Soziale Ungleichheit und globale Gesundheit
Das fundamentale Problem all dieser Ansätze sah Hofmann in ihrer systematischen Ausblendung sozialer Ungleichheiten. Gesundheit hänge in hohem Maße von gesellschaftlicher Positionierung ab, betonte er in seinem Vortrag. Menschen, die queer oder trans seien, erlebten ihr Leben lang Minderheitenstress, der sich auf die Gesundheit auswirke. Menschen, die täglich zehn Stunden Pakete austrügen, hätten abends keine Energie mehr für Wellness-Rituale. „Armut tötet“, fasste Hofmann zusammen – eine Aussage, die das Robert-Koch-Institut mit seinen Daten zur „Lebenserwartungslücke“ zwischen Arm und Reich wissenschaftlich bestätige.
Die Individualisierung von Gesundheit mache Menschen für Dinge verantwortlich, für die sie wenig könnten, argumentierte Hofmann. Wer in einer lauten Straße wohne, wer Schichtarbeit leiste, wer prekär beschäftigt sei, könne sich nicht einfach für einen gesünderen Lebensstil entscheiden.
Besonders eindringlich wurde Hofmann bei der globalen Dimension. Die Deutsche Aidshilfe habe anlässlich des Welt-Aids-Tags einen Weckruf veröffentlicht: Nach dem Rückzug der USA aus internationalen HIV-Programmen drohe eine Katastrophe. Menschen würden an einer gut behandelbaren Krankheit sterben, weil ihnen die Medikamente fehlen. Hofmann appellierte: „Vielleicht sollten wir das Problem mal als erstes fixen, bevor wir uns weiter darüber unterhalten, ob irgendwelche Tech-Bros aus dem Silicon Valley 130 werden könnten.“
Wem nützt das Narrativ vom kaputten System?
In seinem Vortrag warnte Hofmann auch vor den politischen Implikationen der Krisendiskurse. Die Erzählung, dass das Gesundheitssystem kaputt sei, sei keine neutrale Zustandsbeschreibung, sondern selbst ein Narrativ. Natürlich müsse man Probleme benennen und Lösungen diskutieren. „Aber wenn man nur die Erzählung macht, dass das System kaputt geht und eh alles den Bach runter geht und wir dem Untergang geweiht sind, dann profitiert am Ende doch wieder nur die eine rechtsextreme Partei, die selbst ganz bestimmt keine kompetenten, weitsichtigen Antworten für strukturelle Probleme im Gesundheitswesen haben wird.“
(mack)
Künstliche Intelligenz
Meta liefert mit SAM die Augen für multimodale Sprachmodelle
SAM steht für „Segment Anything Model“. Mit diesem KI-Modell ist es möglich, Objekte und sogar Audio aus Bildern und Videos zu segmentieren – einfach per Prompt. Die neueste Version von SAM – SAM 3 – ist in drei Varianten verfügbar: SAM 3, SAM 3D und SAM 3 Body. Wir haben mit Nikhila Ravi, Forschungsingenieurin bei Meta, über Anwendungsfälle und die Funktionsweise von SAM gesprochen.
Weiterlesen nach der Anzeige
Was genau ist SAM? Ist es ein neues Modell? Ist es generative KI? Es handelt sich nicht um ein großes Sprachmodell an sich.
SAM ist also eigentlich eine Reihe von Modellen, die wir in den vergangenen vier Jahren entwickelt haben. Wir haben am Projekt „Segment Anything” gearbeitet. 2023 haben wir SAM1 veröffentlicht. Mit SAM1 kann man auf ein Objekt zeigen oder klicken, woraufhin das Modell die pixelgenaue Grenze des angeklickten Objekts vorhersagt. SAM1 war nur für Bilder gedacht. Im Jahr 2024 haben wir dann SAM2 veröffentlicht, das dasselbe tat, aber in Videos. Jetzt können Sie auf ein Objekt klicken und erhalten die pixelgenaue Begrenzung dieses Objekts in jedem einzelnen Frame des Videos. SAM3 ist ein völlig neues Modell, bei dem Sie nun mit Text oder visuellen Beispielen angeben können, was Sie umreißen möchten.

Nikhila Ravi, Research Engineer bei Meta FAIR.
Damit meine ich, dass man beispielsweise nicht mehr auf jede einzelne Person klicken muss, sondern einfach den Text „Person“ eingeben kann und das Modell automatisch jede einzelne Person findet und die Grenze um sie herum zeichnet. Wir haben also eine völlig neue Schnittstelle geschaffen, um Segmentierungen vornehmen zu können.
Der entscheidende Unterschied zu generativen Modellen besteht vielleicht darin, dass SAM eine pixelgenaue Wahrscheinlichkeit vorhersagt, ob dieses Pixel zum Zielobjekt gehört. Es generiert keine neuen Pixel, sondern markiert sozusagen mit einem Textmarker etwas, das bereits im Bild vorhanden ist.
Man kann einfach „Person” sagen, oder einen anderen Prompt schreiben, und SAM findet die Person im Bild. Gibt es in SAM so etwas wie ein großes Sprachmodell, das für diesen Prozess verwendet wird?
Das ist eine gute Frage. Eines der Dinge, die wir unbedingt erreichen wollten, war die Implementierung einer solchen offenen Vokabular-Textschnittstelle. Aber wir haben uns dann doch dafür entschieden, uns auf kurze Textphrasen zu beschränken. „Person“ ist also ein sehr einfaches Beispiel. Man kann auch komplexere Dinge wie „gelber Schulbus“ oder „rot gestreifter Regenschirm“ eingeben. Es sind jedoch nur zwei oder drei Wörter möglich, also kurze Phrasen. Der Grund dafür ist, dass wir kein großes Sprachmodell innerhalb des Modells verwenden wollen, sondern einen kleinen Text-Encoder haben.
Weiterlesen nach der Anzeige
Denn wir verwenden SAM3 für viele Anwendungsfälle in der Praxis, darunter auch für einige Produkte bei Meta, und es muss schnell sein. Wir hätten uns auch für ein LLM entscheiden können, aber wir haben uns dafür entschieden, es auf diese kurzen Phrasen zu beschränken, damit wir es auch für Produktanwendungen schnell ausführen können.
Ich habe den Playground ausprobiert, eine Art Bild und Video-Editor, und es hat sehr viel Spaß gemacht. Aber wofür wird SAM noch verwendet?
Die präzise Bild- und Videobearbeitung ist definitiv ein Anwendungsfall, den wir im Playground hervorgehoben haben, und den wir intern für etwa Instagram Edits und andere Produkte verwenden. Intern verwenden wir es auch für die visuelle Datenbeschriftung, also das Datalabeling. SAM1 und SAM2 haben die Datenbeschriftung erheblich beschleunigt. Früher musste man die Begrenzung um das Objekt manuell zeichnen. Mit SAM1 konnte man einfach auf das Objekt klicken und erhielt die Begrenzung. Aber wenn beispielsweise fünf Hunde im Bild waren, musste man manuell auf jeden der fünf Hunde klicken. SAM3 ist wie ein weiterer Schritt zur Beschleunigung dieses Prozesses, denn jetzt kann man einfach „Hund” eingeben und erhält Masken für alle Hunde. Im Rahmen der Einführung von SAM3 haben wir unter anderem mit einem Datenkennzeichnungsunternehmen namens Roboflow zusammengearbeitet. Roboflow ist ein Unternehmen für visuelle Datenkennzeichnung, das SAM1, SAM2 und jetzt auch SAM3 integriert hat.
Das Unternehmen ist begeistert davon, wie sehr SAM die Workflows für die Kunden beschleunigen kann, und zwar in gannz verschiedenen Anwendungsfällen aus der Praxis. In der Medizin beispielsweise müssen manche Wissenschaftler Zellen zählen, genauer gesagt müssen sie manuell zählen, wie viele Zellen sich auf einem Objektträger befinden. Mit SAM3 können Sie jetzt einfach einen Textbefehl wie „Zelle” verwenden oder ein Beispielfeld zeichnen. Eine weitere Möglichkeit, etwas zu spezifizieren, besteht nämlich darin, ein Feld um ein Beispiel zu zeichnen, woraufhin SAM3 alle anderen Beispiele findet.
Es gibt auch industrielle Anwendungsfälle. Die Robotik ist ein weiterer wichtiger Anwendungsbereich, der derzeit im Vordergrund steht. Besonders interessant sind die Videofunktionen und der Echtzeitaspekt, da man beim Navigieren in einer Umgebung alle verschiedenen Objekte finden muss. Wenn man beispielsweise einen Roboter hat, der Objekte aufnehmen kann, muss man wissen, wo sich die Objekte befinden.
Datenbeschriftung kann für alles Mögliche verwendet werden. Zum Beispiel in einer industriellen Fertigungslinie, in der eine neue Komponente hergestellt werden soll und man zählen möchte, wie viele Komponenten produziert werden.
Früher mussten Menschen alles anklicken und beschreiben, heute ist das also viel einfacher und schneller, nicht wahr?
Ja. Es ist wie eine Automatisierung dieses Prozesses. Früher musste man alles manuell machen. Jetzt können wir dieses Modell in den Kreislauf einbinden, man nimmt vielleicht ein paar Korrekturen vor, aber dann sind 80 % der Vorhersagen ungefähr richtig. Das beschleunigt den gesamten Prozess.
Jetzt haben wir SAM im Playground als Editor, wir haben SAM für die Datenbeschriftung. Entwickler können SAM3 frei verwenden. Wie geht es weiter? In welche Richtung arbeiten Sie?
Der Forschungsteil ist wirklich grundlegend. Wir betrachten es gerne unter dem Gesichtspunkt: „Was ist eine grundlegende Innovation, die dann viele neue Anwendungsfälle nachgelagert ermöglicht?“ Die Anwendungsfälle im Bereich der Bearbeitung machen Spaß. Aber all diese Anwendungsfälle aus der Praxis zeigen vor allem, dass das Modell über Generalisierungsfähigkeiten verfügt.

Alle Objekte eines Bildes werden erkannt.
Die Entwicklertools, sozusagen der Code und die Modelle, veröffentlichen wir, weil wir von der Community profitieren, die darauf aufbaut. Einige der Dinge, die die Community auf SAM2 aufgebaut hat, haben wir tatsächlich für SAM3 verwendet. Es handelt sich um neue Benchmarks und einige Modellverbesserungen, die die Open-Source-Community vorgenommen hat. Und es gab einige neue Datensätze, die die Community erstellt hat.
Deshalb halten Sie an der offenen Strategie fest, richtig?
Ja, für SAM war es wirklich sehr wirkungsvoll, diese Komponente zu haben.
Was ist das nächste größere, vielleicht grundlegende Problem? Gibt es ein größeres Ziel, auf das Sie hinarbeiten?
Ich denke, eines der Dinge, die wir in der SAM3-Veröffentlichung gezeigt haben, ist, wie SAM3 mit MLLM, multimodalen großen Sprachmodellen, eine visuelle Grundkomponente sein kann. SAM3 ist beispielsweise sehr gut in der Lokalisierung, also der Vorhersage der pixelgenauen Maske, während MLLMs sehr gut im Schlussfolgern und Planen sind und über all dieses zusätzliche Wissen über die Welt verfügen. Wir haben bereits gezeigt, wie man ein MLLM mit SAM3 kombinieren kann, um komplexere visuelle Aufgaben zu lösen. SAM3 ist also so etwas wie die Augen, das MLLM ist wie das Gehirn, und sie arbeiten zusammen. Dieses Experiment haben wir bei der SAM-3-Veröffentlichung vorgestellt. Ich denke, das ist definitiv eine sehr interessante Richtung für die Zukunft.
Und glauben Sie, dass dies für eine AGI (Artificial General Intelligence) oder eine AMI (Artificial Machine Intelligence) oder eine Superintelligenz oder etwas in der Art notwendig ist?
Auf jeden Fall für die Robotik. Die Robotik ist ein gutes Beispiel, weil sie viele verschiedene Anwendungsfälle umfasst: Etwa um verkörperte Agenten zu haben, die sich in der Welt bewegen und dann Aufgaben ausführen können, die die Lokalisierung und Verfolgung von Objekten erfordern. Da ist es eine enorm wichtige Fähigkeit. Und ganz allgemein: Wie kann man Vision und Sprache enger miteinander verbinden? Denn wie Sie wissen, ist die Menge an visuellen Daten, die wir in der Welt haben, deutlich größer als die Menge an Textdaten. Es ist entscheidend, visuelle Inhalte so tiefgreifend wie Textdaten verbinden und verstehen zu können. Wir brauchen die Augen, und die Augen sind im Moment im Vergleich zu den menschlichen Augen noch sehr primitiv.
Was können wir in naher Zukunft erwarten?
Es gibt einige kurzfristige Ziele, die wir erreichen möchten, beispielsweise das Modell etwas schneller zu machen. Derzeit ist es bei Bildern sehr schnell. Bei Videos ist es für etwa fünf Objekte in Echtzeit schnell, aber dann skaliert die Inferenzzeit mit der Anzahl der Objekte. Wir haben also einige Ideen, wie wir die Inferenz schneller machen können. Es gibt ein paar Dinge, die wir umsetzen möchten und die leicht zu erreichen sind.
Ich habe mich gefragt, ob klassische Freisteller, vielleicht für Produkte in Online-Shops, ein Anwendungsfall sind? Oder ist das für SAM viel zu einfach? Es gibt ja auch SAM 3D.
SAM 3D ist ein separates Modell. Wir haben also tatsächlich drei verschiedene Modelle veröffentlicht. SAM 3, SAM 3D Objects und SAM 3D Body. Für den von Ihnen genannten Anwendungsfall könnten SAM 3 und SAM 3D Objects eine gute Lösung sein. Wir haben dies tatsächlich mit Facebook Marketplace umgesetzt. Wir haben eine Funktion entwickelt, mit der jeder Verkäufer von Wohnaccessoires auf Facebook Marketplace die Möglichkeit hat, sein Angebot in ein 3D-Objekt umzuwandeln, das der Käufer dann in Augmented Reality betrachten kann. Dabei wird SAM 3 verwendet, um das Objekt zu maskieren, und dann mit SAM 3D in 3D umgewandelt. Das war ein Projekt, an dem ich besonders gerne mitgearbeitet habe, weil ich glaube, dass wir uns so etwas vor fünf Jahren noch nicht hätten vorstellen können, und jetzt können wir es tun.

Ein Sessel wird mittels Prompt zum 3D-Objekt.
(Bild: Meta)
Und wo liegen die Grenzen? Ich glaube, ich habe gelesen, dass die Hände das Problem für SAM 3D Body sind. Es sind immer die Hände.
Es gibt unterschiedliche Einschränkungen für verschiedene Modelle. Ich denke, die Einschränkung des SAM 3-Modells liegt eindeutig in den kurzen Textphrasen. Das ist etwas, das wir hoffentlich lösen können. Es gibt auch sehr nischenhafte Bereiche, die spezielles Wissen erfordern. Zum Beispiel die Interpretation von Röntgenbildern. Wir haben dieses Wissen nicht in das Modell integriert, da wir keine Daten dafür haben. Für solche Anwendungsfälle müssen also Daten gesammelt und das Modell feinabgestimmt werden. Wir bieten jedoch Anweisungen zur Feinabstimmung in der Code-Veröffentlichung für SAM 3. Bei SAM 3D gibt es die genannten Handrekonstruktion. Es gibt außerdem Bemühungen, die Geschwindigkeit der SAM 3D-Modelle zu verbessern, damit auch sie schneller laufen können.
(emw)
-
UX/UI & Webdesignvor 2 MonatenIllustrierte Reise nach New York City › PAGE online
-
Künstliche Intelligenzvor 3 MonatenAus Softwarefehlern lernen – Teil 3: Eine Marssonde gerät außer Kontrolle
-
Künstliche Intelligenzvor 3 Monaten
Top 10: Die beste kabellose Überwachungskamera im Test
-
UX/UI & Webdesignvor 2 MonatenSK Rapid Wien erneuert visuelle Identität
-
Künstliche Intelligenzvor 2 MonatenNeue PC-Spiele im November 2025: „Anno 117: Pax Romana“
-
Entwicklung & Codevor 1 MonatKommandozeile adé: Praktische, grafische Git-Verwaltung für den Mac
-
Künstliche Intelligenzvor 2 MonatenDonnerstag: Deutsches Flugtaxi-Start-up am Ende, KI-Rechenzentren mit ARM-Chips
-
UX/UI & Webdesignvor 2 MonatenArndt Benedikt rebranded GreatVita › PAGE online
