Connect with us

Künstliche Intelligenz

Kommentar: „Speed it up“ – ein Konzept, das auf Implementierung wartet


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

Gab es in den vergangenen Jahren eigentlich jemals eine Diskussionsrunde zum Thema Bildung, die nicht sagte, dass wir spät dran sind und endlich etwas tun müssten? Ich kann mich an keine erinnern. Alles tutti in der Republik. Äh, den Ländern. Den 16 Ländern, die sich in Bildungsfragen stets in der Abstimmung (KMK) und auch Konkurrenz zueinander befinden. Bildungspolitik gereicht den Länderchefs auch immer zur Profilierung oder Profilschärfung, da viele andere politische Bereiche sich nicht so einfach auf dezidierte Länderentscheidungen reduzieren lassen.

So war es kaum verwunderlich, dass Geschwindigkeiten und Zeitangaben auf der diesjährigen Konferenz Bildung Digitalisierung wieder eine Rolle spielten. Auf einem Panel mit dem neuseeländischen Bildungsforscher John Hattie und Bundesbildungsministerin Karin Prien (CDU) hieß es, dass zum Thema Bildung, Digitalisierung und auch Medienkompetenz eigentlich schon ganz viel klar sei. Das Wissen ist da, doch wo bleibt die Umsetzung?


Ein Kommentar von Kristina Beer

Ein Kommentar von Kristina Beer

Kristina Beer beschäftigt sich gerne mit der Frage, wie sich technischer Fortschritt auf Gesellschaft, Wirtschaft und politische Entscheidungen auswirkt.

Prien überraschte mit ihrer Antwort, weil Zuweisung von Schuld oder Verantwortung immer gefährlich ist: „Also wir haben da noch viele Hausaufgaben zu machen. Aber es beschreibt so ein bisschen unser Grundproblem in Deutschland: Dass wir Schwierigkeiten mit der Implementierung haben.“ Der letzte Satz hatte gesessen. Offenbar so, dass ihr Parteikollege Jan Riedel, Bildungsminister in Sachsen-Anhalt, etwas vorsichtiger nachschob: „Wir haben eine Implementierungs-Herausforderung“. John Hattie hörte sich mithilfe einer Übersetzerin den Schlagabtausch zwischen Ministern und Moderation an und warf nach weiterem Hin und Her ein klares, aber auch neckisches „Speed it up!“ ein. Da lachte das Publikum.

Wir lachen noch und doch bleibt uns dieses Lachen im Bildungskontext oft genug im Halse stecken. Wenn wir uns die marode Bildungsinfrastruktur ansehen, die fehlende digitale Ausstattung, wenn ChatGPT längst Hausaufgaben- und Prüfungsformate auf den Kopf stellt, dann lachen wir – gequält. Es gäbe so viel zu tun, aber wir kommen offenbar nie so richtig aus dem Quark.

Bildungsforscherin Felicitas Macgilchrist erklärte am nächsten Tag auf einem Panel mit Klaus Hurrelmann sowie weiteren Expertinnen und Experten, dass Veränderungen auch dann nötig sind, wenn Ungewissheit herrscht, auch dann, wenn wir sogar wissen, dass wir noch nicht alles wissen (können). Also beispielsweise auch in dem Fall, in dem zwar eine Kommission zu Fragen wie Handy- und Social-Media-Verboten eingesetzt wird, aber bis diese Ergebnisse liefert, das Schul- und Bildungsleben erst einmal mindestens ein ganzes Jahr so weiterläuft.



Das Panel „Digitale Souveränität als Treiber der Transformation: Bildungspolitik für eine starke Demokratie“, zugeschaltet Christine Streichert-Clivot (SPD), Bildungsministerin Saarland, Moderatorin Katja Weber, Bundesbildungsministerin Karin Prien (CDU), Bildungsforscher John Hattie und Jan Riedel (CDU), Bildungsminister Sachsen-Anhalt.

(Bild: Kristina Beer/heise medien)

Macgilchrist verwies auf Forschung zu Ungewissheit. Ungewissheit sei gar nicht schlecht, denn man sehe, dass gerade dann, wenn noch nicht alle Fragen beantwortet werden können, besonders „reflektierte und souveräne Entscheidungen getroffen werden, die einen Platz aufmachen für unterschiedliche Handlungen“. Hatties „Speed it up“ könnte also eigentlich umgesetzt, oder auch „implementiert“ werden, allerdings müsste dafür auch das Bedürfnis nach definitiven, glasklaren und unverrückbaren Gewissheiten über Bord geworfen werden.

Dass unser Bildungssystem dafür derzeit keinen Raum lässt, machte das Panel rund um Macgilchrist aber auch klar. Es gibt in den festgezurrten Bildungsplänen keinen Raum und auch keine Zeit für große Veränderungen im laufenden Betrieb und dazu kommt dann noch der Ressourcenmangel in Form von Ausstattung und Personal. Uta Hauck-Thum kritisierte auch, dass unser Bildungssystem nur reaktiv auf Probleme Antworten sucht und dann auch nicht transformativ reagiert wird, sondern nur kleine Projekte für diese Probleme entwickelt werden, die dem Althergebrachten lediglich an die Seite gestellt werden. Das Althergebrachte steht weiterhin fest!



Das Panel „Jenseits des Instrumentellen: Bildung unter den Bedingungen der Digitalität – von der Haltung zum Kompetenzerwerb für zukünftige Generationen“, Prof. Dr. Klaus Hurrelmann, Prof. Dr. Uta Hauck-Thum, Moderator Fabian Franz, Grundschullehrerin Kristin van der Meer, Schulleiter Micha Pallesche und Prof. Dr. Felicitas Macgilchrist.

(Bild: Kristina Beer/heise medien)

Auf dem Panel mit John Hattie kam auch die Frage auf, wer Veränderungen umsetzen soll oder wie man sie bestärken kann. Klar ist: Soll sich etwas im Klassenzimmer ändern, muss die Veränderung auch dort möglich sein. Doch wird das zugelassen und werden Menschen darin unterstützt? Hattie brachte hierzu ein gutes Beispiel auf die Bühne. In New South Wales hatte man Lehrkräften ein eigenes KI-Tool an die Hand gegeben, mit dem sie angstfrei arbeiten können sollten – dazu gehörte auch, dass der Staat klarmachte: Wir stellen uns vor euch, wenn ihr für eure Arbeit angegriffen werden solltet – unter anderem könnten Eltern klagen. Prien sagte zwar, dass mit Chatbot „Telli“ nun auch so eine eigene KI in deutsche Schulen käme, aber das ließ Hattie nicht gelten – wir sind wieder spät dran.

„Implementierungen“ dauern bei uns so lange, weil in eng gestrickten Bildungsplänen keine Zeit und kein Raum für Veränderung da ist – außerdem wird wirkliche Transformation abgelehnt. Wird digitalisiert, wird ein analoger Prozess digitalisiert, ohne einen Schritt zurückzutreten und zu überlegen, ob es nicht eine ganz andere Lösung gibt. Wenn die Panels auf der Konferenz Bildung Digitalisierung also eines gezeigt haben, dann, dass John Hatties „Speed it up“ nicht in der DNA des deutschen Bildungssystems vorhanden ist. Dass technische Entwicklungen und deren Beschleunigungen darauf aber nun wirklich gar keine Rücksicht nehmen wollen, sollte spätestens durch ChatGPT klar sein. Wie Referentinnen und Referenten bemerkten, könne man zwar weiterhin versuchen, solche Entwicklungen auch durch „Verbote“ aus den Klassenzimmern herauszuhalten, aber das dürfte wohl nur dazu führen, dass es in den nächsten Jahren wieder regelmäßig in verschiedenen Abwandlungen heißt: „das haben wir verschlafen“, „wir sind spät dran“, „das handeln wir gerade unter den Ländern aus“ und „wir haben dazu eine Kommission gegründet.“




Die diesjährige Konferenz des Forum Bildung Digitalisierung lief unter dem Leitthema „Power Up – souverän für die digitale Transformation“ und diskutierte mit Blick auf unsere Bildungslandschaft digitale Souveränität. Es wurde erörtert, wie diese im Bildungssystem verankert werden sollte, aber auch durch Veränderungen im Bildungssystem gesellschaftlich überhaupt erst erreicht werden kann. Die aktuellen Debatten zu einem Handyverbot in Schulen und der Social-Media-Nutzung von Jugendlichen wurden eigentlich in jedem größeren Redebeitrag angeschnitten. Zumeist wurde darauf hingewiesen, dass zumindest in Bezug auf die Social-Media-Nutzung mehr Regulation der Plattformen nötig sei – das Problem übersteige die Ressourcen und Fähigkeiten von Bildungseinrichtungen und Individuen. Mit Blick auf Handyverbote wurde verschiedentlich darauf aufmerksam gemacht, dass Verbote nur dazu führen, dass genau denjenigen Heranwachsenden, die zu Hause keinerlei Medien- oder auch Digitalkompetenz erhalten können, nur der schulische Raum bleibt, um einen reflektierten und sicheren Umgang mit Endgeräten, aber auch den vielfach kritisierten sozialen Medien erlernen zu können.

Die Konferenz konnte mit großen Namen auf ihren Podien aufwarten: Unter anderem waren Bildungsforscher John Hattie, Prof. Dr. Klaus Hurrelmann, Bundesbildungsministerin Karin Prien (CDU), mehrere Landesminister, Bildungsexperten- und -Influencer wie Tarek Zaibi und Fabian Grischkat zugegen.


(kbe)



Source link

Künstliche Intelligenz

„Armut tötet“: Warum „KI“ das Gesundheitswesen nicht retten kann


Auf dem 39. Chaos Communication Congress analysierte Manuel Hofmann von der Deutschen Aidshilfe in seinem Vortrag „‘KI’, Digitalisierung und Longevity als Fix für ein kaputtes Gesundheitssystem?“ die überzogenen Technologie-Versprechen für das deutsche Gesundheitssystem. Sein Vortrag offenbarte eine gefährliche Mischung aus naiver Technikgläubigkeit, libertärer Ideologie und dem systematischen Ausblenden sozialer Ungleichheiten.

Weiterlesen nach der Anzeige

Betrachte man die Schlagzeilen, stecke das deutsche Gesundheitswesen in einer veritablen Krise: Die Kosten explodieren, der demografische Wandel rollt unaufhaltsam auf das System zu, und in den nächsten zehn bis fünfzehn Jahren werden Hunderttausende Beschäftigte in Rente gehen. Zugleich kommen geburtenstarke Jahrgänge in ein Alter, in dem sie häufiger krank und pflegebedürftig werden. Der Charité-Chef warne vor dem Kollaps, der GKV-Spitzenverband schlage Alarm, und Deutschland lande bei der Krankheitsprävention auf dem vorletzten Platz einer internationalen Erhebung.

Die Antwort der Politik und der Gesundheitswirtschaft auf diese strukturellen Probleme folge einem erstaunlich einheitlichen Muster, erklärte Hofmann: Technologie soll es richten. In der Digitalisierungsstrategie des Bundesgesundheitsministeriums (PDF) aus dem Jahr 2023 heiße es: „Die Digitalisierung in der Gesundheits- und Pflegeversorgung ermöglicht ein gesünderes und längeres Leben für alle.“ Doch wie realistisch sind diese Versprechen tatsächlich?

In seiner Analyse verdeutlichte Hofmann die Dimensionen der Realitätsferne mit konkreten Aussagen führender Gesundheitsmanager. Prof. Dr. Heyo K. Kroemer, Vorstandsvorsitzender der Charité – Europas größtem Universitätsklinikum –, erklärte demnach in einem Tagesthemen-Interview, dass innerhalb der nächsten zehn Jahre ein Drittel seiner Mitarbeiter in Rente gehen werde. Hofmann zitierte Kroemers Schlussfolgerung: „Insofern haben wir ganz klar die Zielsetzung, innerhalb einer Dekade ein Drittel der Mitarbeiter durch diese Technologien ersetzen zu können.“

Hofmann konterte diese Aussage mit Verweis auf die Geschichte der Digitalisierung im Gesundheitswesen: „Ich erinnere noch mal daran: Wir haben vor 20 Jahren die erste Idee zur elektronischen Patientenakte bekommen.“ Die elektronische Patientenakte, das Vorzeigeprojekt der Gesundheitsdigitalisierung, war auf dem Chaos Communication Congress vor genau einem Jahr Gegenstand vernichtender Kritik – Sicherheitsforscher hatten zahlreiche technische Mängel aufgezeigt. Vor diesem Hintergrund erscheine die Vorstellung, innerhalb von zehn Jahren ein Drittel des Krankenhauspersonals durch KI zu ersetzen, geradezu unrealistisch, so Hofmann.

Noch weiter gehe es in einem von Siemens Healthineers gesponserten Meinungsbeitrag in der Welt, den Hofmann in seinem Vortrag zitierte: „Was können wir dagegen tun? Wir können nicht mehr Ärzte herbeizaubern, aber durch den Einsatz von Technologie versetzen wir sie in die Lage, künftig zehnmal mehr als heute zu leisten. Warum sollte ein Arzt, der heute 1000 Patienten im Quartal behandelt, künftig nicht 10.000 Patienten im Quartal behandeln?“

Weiterlesen nach der Anzeige

Hofmann berichtete, er habe diese These bei einem Workshop auf einem Ärztekongress des Vereins Demokratischer Ärztinnen getestet. Die Reaktion der anwesenden Mediziner auf die Frage, warum sie künftig nicht zehnmal so viele Patienten behandeln könnten, beschrieb er so: „Sie waren so mittelbegeistert und haben sich auch tendenziell nicht über zu laxe Arbeitsbedingungen beschwert.“

Besonders drastisch illustrierte Hofmann die Weltfremdheit mancher Zukunftsvisionen anhand eines Magazins einer Strategieberatung, das das Gesundheitswesen im Jahr 2030 beschreibt. Die dort geschilderte Szene: Ein Patient sitzt in einer onkologischen Praxis, um seine Krebsprognose zu erfahren – also die Antwort auf die Frage, ob er weiterleben wird. Dieser Patient werde in der Vision als „neugierig“ beschrieben, so Hofmann.

Seine Kritik fiel deutlich aus: „Ich will wirklich nicht, dass die Zukunft unseres Gesundheitswesens von Leuten designt wird, die denken, dass Menschen, die gerade erfahren, ob sie weiterleben können, neugierig in ihrem Behandlungsgespräch sitzen.“ In der Vision errechneten KI-Simulationen, „gestützt auf Quantencomputing“, eine individualisierte Erfolgswahrscheinlichkeit. Die Ärztin habe dann auch viel mehr Zeit für „tolle psycho-onkologische Gespräche“, weil das Administrative wegfalle. Die Diskrepanz zwischen solchen Hochglanz-Szenarien und der Realität eines Gesundheitssystems, das noch immer massiv auf Faxgeräte angewiesen ist, könne kaum größer sein.

Parallel zur Technologie-Euphorie etabliere sich laut Hofmanns Analyse ein zweites Narrativ: die Betonung von Eigenverantwortung. Der Referent verwies auf Bundeskanzler Friedrich Merz, der beim Kongress der Maschinenbauer erklärt habe, die Deutschen gingen alle zu häufig zum Arzt.

Ähnlich äußere sich Bundesgesundheitsministerin Nina Warken. Hofmann zitierte sie aus einer Pressekonferenz zum Public Health Report: „Um eine finanzierbare und gute Gesundheitsversorgung für die Zukunft aufzustellen, sind Veränderungen unumgänglich. Und dabei wird auch die Eigenverantwortung der Bürgerinnen und Bürger eben eine zentrale Rolle spielen.“

Diese Entwicklung münde in eine zunehmende digitale Ersteinschätzung, analysierte Hofmann: Bevor Menschen Zugang zum Gesundheitssystem erhalten, sollen Chatbots und Symptomchecker vorfiltern, wer „wirklich“ behandelt werden muss.

Besonders problematisch werde diese Entwicklung im Bereich der psychischen Gesundheit. Angesichts des Mangels an Psychotherapieplätzen werde KI zunehmend als Ersatz diskutiert. Hofmann warnte eindringlich: „Nein, ChatGPT wird nicht den Psychotherapeuten und die Psychotherapeutin ersetzen.“ Als Beleg verwies er auf ein neues Phänomen: die KI-induzierte Psychose. Menschen mit bestehenden Zwangsgedanken erhielten von Sprachmodellen oft bekräftigende Antworten, die ihre Probleme verschärften statt sie zu lindern.

Ein weiterer Strang von Hofmanns Analyse betraf die Longevity-Bewegung – ein Ansatz, der Langlebigkeit durch eine Kombination aus Technologie, Selbstoptimierung und experimentellen Behandlungen verspricht. Die ideologischen Wurzeln dieser Bewegung lägen im Silicon Valley, bei Tech-Milliardären mit libertären Überzeugungen und dem ausgeprägten Wunsch, nicht sterben zu müssen.

Als prominenten Vertreter nannte Hofmann Ray Kurzweil, KI-Visionär und Chief Technical Officer bei Google. Kurzweil propagiere das Konzept der „Longevity Escape Velocity“ – den Punkt, an dem der medizinische Fortschritt so schnell voranschreite, dass jedes gelebte Lebensjahr ein zusätzliches Jahr Lebenserwartung bringe. Hofmann erläuterte Kurzweils Vision: Man erreiche irgendwann einen Zustand, „wo wir unsere allzu schwächlichen scheiternden Körper hinter uns lassen können“ und wo Krankheit, wie wir sie kennen, ausgerottet werde. Nach Kurzweils Prognosen werde dieser Punkt bereits in wenigen Jahren erreicht sein. „Ich glaube, das Fax wird im deutschen Gesundheitswesen diesen Zeitpunkt um einige Jahrzehnte überleben,“ sagte Hofmann dazu.

Die praktische Ausprägung dieser Ideologie finde sich in Einrichtungen wie Fountain Life, einem laut Hofmann „irrsinnig teuren Longevity-Center“ in den USA, wo wohlhabende Kunden experimentelle Untersuchungen buchen können. Ein Gründer von Fountain Life habe empfohlen, man solle „der CEO der eigenen Gesundheit sein“ – eine Formulierung, die inzwischen auch von deutschen Gesundheitsinfluencern übernommen werde.

Als besonders skurriles Beispiel nannte Hofmann den Longevity-Enthusiasten Brian Johnson, der sich selbst als den bestvermessensten Menschen der Welt bezeichne. Johnson sei bekannt für obsessive Selbstvermessung, die nach Hofmanns Darstellung bisweilen groteske Züge annehme. Er verwies auf einen Artikel der New York Times, der die jahrhundertealte Suche nach dem ewigen Leben analysiert und festgestellt habe, dass diese Suche überwiegend von Männern getrieben ist. Hofmann zog Verbindungen zu sozialpsychologischer Forschung, die nahelege, dass die Verdrängung des Todes in individualistisch organisierten Gesellschaften deutlich verbreiteter sei als in gemeinschaftsorientierten Kulturen.

Das fundamentale Problem all dieser Ansätze sah Hofmann in ihrer systematischen Ausblendung sozialer Ungleichheiten. Gesundheit hänge in hohem Maße von gesellschaftlicher Positionierung ab, betonte er in seinem Vortrag. Menschen, die queer oder trans seien, erlebten ihr Leben lang Minderheitenstress, der sich auf die Gesundheit auswirke. Menschen, die täglich zehn Stunden Pakete austrügen, hätten abends keine Energie mehr für Wellness-Rituale. „Armut tötet“, fasste Hofmann zusammen – eine Aussage, die das Robert-Koch-Institut mit seinen Daten zur „Lebenserwartungslücke“ zwischen Arm und Reich wissenschaftlich bestätige.

Die Individualisierung von Gesundheit mache Menschen für Dinge verantwortlich, für die sie wenig könnten, argumentierte Hofmann. Wer in einer lauten Straße wohne, wer Schichtarbeit leiste, wer prekär beschäftigt sei, könne sich nicht einfach für einen gesünderen Lebensstil entscheiden.

Besonders eindringlich wurde Hofmann bei der globalen Dimension. Die Deutsche Aidshilfe habe anlässlich des Welt-Aids-Tags einen Weckruf veröffentlicht: Nach dem Rückzug der USA aus internationalen HIV-Programmen drohe eine Katastrophe. Menschen würden an einer gut behandelbaren Krankheit sterben, weil ihnen die Medikamente fehlen. Hofmann appellierte: „Vielleicht sollten wir das Problem mal als erstes fixen, bevor wir uns weiter darüber unterhalten, ob irgendwelche Tech-Bros aus dem Silicon Valley 130 werden könnten.“

In seinem Vortrag warnte Hofmann auch vor den politischen Implikationen der Krisendiskurse. Die Erzählung, dass das Gesundheitssystem kaputt sei, sei keine neutrale Zustandsbeschreibung, sondern selbst ein Narrativ. Natürlich müsse man Probleme benennen und Lösungen diskutieren. „Aber wenn man nur die Erzählung macht, dass das System kaputt geht und eh alles den Bach runter geht und wir dem Untergang geweiht sind, dann profitiert am Ende doch wieder nur die eine rechtsextreme Partei, die selbst ganz bestimmt keine kompetenten, weitsichtigen Antworten für strukturelle Probleme im Gesundheitswesen haben wird.“


(mack)



Source link

Weiterlesen

Künstliche Intelligenz

Mecklenburg-Vorpommern: Land will schnellere Digitalisierungsverfahren


Die Digitalisierung in Mecklenburg-Vorpommern soll mit vereinfachten Verfahren weiter beschleunigt werden. Durch Änderungen in der Landesbauordnung, dem digitalen Bauantrag und dem Breitbandportal könnten Planungen und Genehmigungen zunehmend schneller abgewickelt werden, hieß es in einer Mitteilung des Innenministeriums in Schwerin.

Weiterlesen nach der Anzeige

„Wir haben heute Möglichkeiten, die uns vor Jahren noch gefehlt haben. Wenn wir sie alle konsequent nutzen, kommen wir deutlich schneller voran“, sagte Innenminister Christian Pegel (SPD).

2015 startete der Bund laut Ministerium das erste Förderprogramm für Glasfaserausbau. Mittlerweile könnten mehr als 60 Prozent der Haushalte im Nordosten einen Glasfaseranschluss nutzen, mit denen sie schnelleres Internet haben. Laut Pegel wurde bislang etwa die Hälfte der Fördermittel in Höhe von fast drei Milliarden Euro abgerufen.

Im September endete nach mehr als sieben Jahren Bauzeit ein großes Ausbauprojekt des Glasfasernetzes im Landkreis Vorpommern-Rügen. Davon profitieren nach früheren Angaben des Landkreises fast 60.000 Haushalte, darunter 1.800 Unternehmen und 80 Schulen in 56 Kommunen des Landkreises. Das Projekt wurde mit Gesamtkosten von knapp 127 Millionen Euro von Bund, Land und Landkreis gefördert.

Unter anderem die CDU hatte in der Vergangenheit kritisiert, dass zu wenige Haushalte im Nordosten Glasfaser haben. Mittelabflüsse aus Förderprogrammen seien hoch, doch beim tatsächlichen Ausbau hinke das Land weiter hinterher, kritisierte der Vorsitzende der CDU-Landtagsfraktion, Daniel Peters, vor mehreren Monaten.

Weiterlesen nach der Anzeige


(kbe)



Source link

Weiterlesen

Künstliche Intelligenz

Meta liefert mit SAM die Augen für multimodale Sprachmodelle


close notice

This article is also available in
English.

It was translated with technical assistance and editorially reviewed before publication.

SAM steht für „Segment Anything Model“. Mit diesem KI-Modell ist es möglich, Objekte und sogar Audio aus Bildern und Videos zu segmentieren – einfach per Prompt. Die neueste Version von SAM – SAM 3 – ist in drei Varianten verfügbar: SAM 3, SAM 3D und SAM 3 Body. Wir haben mit Nikhila Ravi, Forschungsingenieurin bei Meta, über Anwendungsfälle und die Funktionsweise von SAM gesprochen.

Weiterlesen nach der Anzeige

Was genau ist SAM? Ist es ein neues Modell? Ist es generative KI? Es handelt sich nicht um ein großes Sprachmodell an sich.

SAM ist also eigentlich eine Reihe von Modellen, die wir in den vergangenen vier Jahren entwickelt haben. Wir haben am Projekt „Segment Anything” gearbeitet. 2023 haben wir SAM1 veröffentlicht. Mit SAM1 kann man auf ein Objekt zeigen oder klicken, woraufhin das Modell die pixelgenaue Grenze des angeklickten Objekts vorhersagt. SAM1 war nur für Bilder gedacht. Im Jahr 2024 haben wir dann SAM2 veröffentlicht, das dasselbe tat, aber in Videos. Jetzt können Sie auf ein Objekt klicken und erhalten die pixelgenaue Begrenzung dieses Objekts in jedem einzelnen Frame des Videos. SAM3 ist ein völlig neues Modell, bei dem Sie nun mit Text oder visuellen Beispielen angeben können, was Sie umreißen möchten.


Nikhila Ravi

Nikhila Ravi

Nikhila Ravi, Research Engineer bei Meta FAIR.

(Bild: [Link auf https://www.nikhilaravi.com/])

Damit meine ich, dass man beispielsweise nicht mehr auf jede einzelne Person klicken muss, sondern einfach den Text „Person“ eingeben kann und das Modell automatisch jede einzelne Person findet und die Grenze um sie herum zeichnet. Wir haben also eine völlig neue Schnittstelle geschaffen, um Segmentierungen vornehmen zu können.

Der entscheidende Unterschied zu generativen Modellen besteht vielleicht darin, dass SAM eine pixelgenaue Wahrscheinlichkeit vorhersagt, ob dieses Pixel zum Zielobjekt gehört. Es generiert keine neuen Pixel, sondern markiert sozusagen mit einem Textmarker etwas, das bereits im Bild vorhanden ist.

Man kann einfach „Person” sagen, oder einen anderen Prompt schreiben, und SAM findet die Person im Bild. Gibt es in SAM so etwas wie ein großes Sprachmodell, das für diesen Prozess verwendet wird?

Das ist eine gute Frage. Eines der Dinge, die wir unbedingt erreichen wollten, war die Implementierung einer solchen offenen Vokabular-Textschnittstelle. Aber wir haben uns dann doch dafür entschieden, uns auf kurze Textphrasen zu beschränken. „Person“ ist also ein sehr einfaches Beispiel. Man kann auch komplexere Dinge wie „gelber Schulbus“ oder „rot gestreifter Regenschirm“ eingeben. Es sind jedoch nur zwei oder drei Wörter möglich, also kurze Phrasen. Der Grund dafür ist, dass wir kein großes Sprachmodell innerhalb des Modells verwenden wollen, sondern einen kleinen Text-Encoder haben.

Weiterlesen nach der Anzeige

Denn wir verwenden SAM3 für viele Anwendungsfälle in der Praxis, darunter auch für einige Produkte bei Meta, und es muss schnell sein. Wir hätten uns auch für ein LLM entscheiden können, aber wir haben uns dafür entschieden, es auf diese kurzen Phrasen zu beschränken, damit wir es auch für Produktanwendungen schnell ausführen können.

Ich habe den Playground ausprobiert, eine Art Bild und Video-Editor, und es hat sehr viel Spaß gemacht. Aber wofür wird SAM noch verwendet?

Die präzise Bild- und Videobearbeitung ist definitiv ein Anwendungsfall, den wir im Playground hervorgehoben haben, und den wir intern für etwa Instagram Edits und andere Produkte verwenden. Intern verwenden wir es auch für die visuelle Datenbeschriftung, also das Datalabeling. SAM1 und SAM2 haben die Datenbeschriftung erheblich beschleunigt. Früher musste man die Begrenzung um das Objekt manuell zeichnen. Mit SAM1 konnte man einfach auf das Objekt klicken und erhielt die Begrenzung. Aber wenn beispielsweise fünf Hunde im Bild waren, musste man manuell auf jeden der fünf Hunde klicken. SAM3 ist wie ein weiterer Schritt zur Beschleunigung dieses Prozesses, denn jetzt kann man einfach „Hund” eingeben und erhält Masken für alle Hunde. Im Rahmen der Einführung von SAM3 haben wir unter anderem mit einem Datenkennzeichnungsunternehmen namens Roboflow zusammengearbeitet. Roboflow ist ein Unternehmen für visuelle Datenkennzeichnung, das SAM1, SAM2 und jetzt auch SAM3 integriert hat.

Das Unternehmen ist begeistert davon, wie sehr SAM die Workflows für die Kunden beschleunigen kann, und zwar in gannz verschiedenen Anwendungsfällen aus der Praxis. In der Medizin beispielsweise müssen manche Wissenschaftler Zellen zählen, genauer gesagt müssen sie manuell zählen, wie viele Zellen sich auf einem Objektträger befinden. Mit SAM3 können Sie jetzt einfach einen Textbefehl wie „Zelle” verwenden oder ein Beispielfeld zeichnen. Eine weitere Möglichkeit, etwas zu spezifizieren, besteht nämlich darin, ein Feld um ein Beispiel zu zeichnen, woraufhin SAM3 alle anderen Beispiele findet.

Es gibt auch industrielle Anwendungsfälle. Die Robotik ist ein weiterer wichtiger Anwendungsbereich, der derzeit im Vordergrund steht. Besonders interessant sind die Videofunktionen und der Echtzeitaspekt, da man beim Navigieren in einer Umgebung alle verschiedenen Objekte finden muss. Wenn man beispielsweise einen Roboter hat, der Objekte aufnehmen kann, muss man wissen, wo sich die Objekte befinden.

Datenbeschriftung kann für alles Mögliche verwendet werden. Zum Beispiel in einer industriellen Fertigungslinie, in der eine neue Komponente hergestellt werden soll und man zählen möchte, wie viele Komponenten produziert werden.

Früher mussten Menschen alles anklicken und beschreiben, heute ist das also viel einfacher und schneller, nicht wahr?

Ja. Es ist wie eine Automatisierung dieses Prozesses. Früher musste man alles manuell machen. Jetzt können wir dieses Modell in den Kreislauf einbinden, man nimmt vielleicht ein paar Korrekturen vor, aber dann sind 80 % der Vorhersagen ungefähr richtig. Das beschleunigt den gesamten Prozess.

Jetzt haben wir SAM im Playground als Editor, wir haben SAM für die Datenbeschriftung. Entwickler können SAM3 frei verwenden. Wie geht es weiter? In welche Richtung arbeiten Sie?

Der Forschungsteil ist wirklich grundlegend. Wir betrachten es gerne unter dem Gesichtspunkt: „Was ist eine grundlegende Innovation, die dann viele neue Anwendungsfälle nachgelagert ermöglicht?“ Die Anwendungsfälle im Bereich der Bearbeitung machen Spaß. Aber all diese Anwendungsfälle aus der Praxis zeigen vor allem, dass das Modell über Generalisierungsfähigkeiten verfügt.


SAM erkennt Käse, Brettchen, und andere Kleinteile auf einem Tisch.

SAM erkennt Käse, Brettchen, und andere Kleinteile auf einem Tisch.

Alle Objekte eines Bildes werden erkannt.

Die Entwicklertools, sozusagen der Code und die Modelle, veröffentlichen wir, weil wir von der Community profitieren, die darauf aufbaut. Einige der Dinge, die die Community auf SAM2 aufgebaut hat, haben wir tatsächlich für SAM3 verwendet. Es handelt sich um neue Benchmarks und einige Modellverbesserungen, die die Open-Source-Community vorgenommen hat. Und es gab einige neue Datensätze, die die Community erstellt hat.

Deshalb halten Sie an der offenen Strategie fest, richtig?

Ja, für SAM war es wirklich sehr wirkungsvoll, diese Komponente zu haben.

Was ist das nächste größere, vielleicht grundlegende Problem? Gibt es ein größeres Ziel, auf das Sie hinarbeiten?

Ich denke, eines der Dinge, die wir in der SAM3-Veröffentlichung gezeigt haben, ist, wie SAM3 mit MLLM, multimodalen großen Sprachmodellen, eine visuelle Grundkomponente sein kann. SAM3 ist beispielsweise sehr gut in der Lokalisierung, also der Vorhersage der pixelgenauen Maske, während MLLMs sehr gut im Schlussfolgern und Planen sind und über all dieses zusätzliche Wissen über die Welt verfügen. Wir haben bereits gezeigt, wie man ein MLLM mit SAM3 kombinieren kann, um komplexere visuelle Aufgaben zu lösen. SAM3 ist also so etwas wie die Augen, das MLLM ist wie das Gehirn, und sie arbeiten zusammen. Dieses Experiment haben wir bei der SAM-3-Veröffentlichung vorgestellt. Ich denke, das ist definitiv eine sehr interessante Richtung für die Zukunft.

Und glauben Sie, dass dies für eine AGI (Artificial General Intelligence) oder eine AMI (Artificial Machine Intelligence) oder eine Superintelligenz oder etwas in der Art notwendig ist?

Auf jeden Fall für die Robotik. Die Robotik ist ein gutes Beispiel, weil sie viele verschiedene Anwendungsfälle umfasst: Etwa um verkörperte Agenten zu haben, die sich in der Welt bewegen und dann Aufgaben ausführen können, die die Lokalisierung und Verfolgung von Objekten erfordern. Da ist es eine enorm wichtige Fähigkeit. Und ganz allgemein: Wie kann man Vision und Sprache enger miteinander verbinden? Denn wie Sie wissen, ist die Menge an visuellen Daten, die wir in der Welt haben, deutlich größer als die Menge an Textdaten. Es ist entscheidend, visuelle Inhalte so tiefgreifend wie Textdaten verbinden und verstehen zu können. Wir brauchen die Augen, und die Augen sind im Moment im Vergleich zu den menschlichen Augen noch sehr primitiv.

Was können wir in naher Zukunft erwarten?

Es gibt einige kurzfristige Ziele, die wir erreichen möchten, beispielsweise das Modell etwas schneller zu machen. Derzeit ist es bei Bildern sehr schnell. Bei Videos ist es für etwa fünf Objekte in Echtzeit schnell, aber dann skaliert die Inferenzzeit mit der Anzahl der Objekte. Wir haben also einige Ideen, wie wir die Inferenz schneller machen können. Es gibt ein paar Dinge, die wir umsetzen möchten und die leicht zu erreichen sind.

Ich habe mich gefragt, ob klassische Freisteller, vielleicht für Produkte in Online-Shops, ein Anwendungsfall sind? Oder ist das für SAM viel zu einfach? Es gibt ja auch SAM 3D.

SAM 3D ist ein separates Modell. Wir haben also tatsächlich drei verschiedene Modelle veröffentlicht. SAM 3, SAM 3D Objects und SAM 3D Body. Für den von Ihnen genannten Anwendungsfall könnten SAM 3 und SAM 3D Objects eine gute Lösung sein. Wir haben dies tatsächlich mit Facebook Marketplace umgesetzt. Wir haben eine Funktion entwickelt, mit der jeder Verkäufer von Wohnaccessoires auf Facebook Marketplace die Möglichkeit hat, sein Angebot in ein 3D-Objekt umzuwandeln, das der Käufer dann in Augmented Reality betrachten kann. Dabei wird SAM 3 verwendet, um das Objekt zu maskieren, und dann mit SAM 3D in 3D umgewandelt. Das war ein Projekt, an dem ich besonders gerne mitgearbeitet habe, weil ich glaube, dass wir uns so etwas vor fünf Jahren noch nicht hätten vorstellen können, und jetzt können wir es tun.


Ein Sessel wird mittels Prompt zum 3D-Objekt.

Ein Sessel wird mittels Prompt zum 3D-Objekt.

Ein Sessel wird mittels Prompt zum 3D-Objekt.

(Bild: Meta)

Und wo liegen die Grenzen? Ich glaube, ich habe gelesen, dass die Hände das Problem für SAM 3D Body sind. Es sind immer die Hände.

Es gibt unterschiedliche Einschränkungen für verschiedene Modelle. Ich denke, die Einschränkung des SAM 3-Modells liegt eindeutig in den kurzen Textphrasen. Das ist etwas, das wir hoffentlich lösen können. Es gibt auch sehr nischenhafte Bereiche, die spezielles Wissen erfordern. Zum Beispiel die Interpretation von Röntgenbildern. Wir haben dieses Wissen nicht in das Modell integriert, da wir keine Daten dafür haben. Für solche Anwendungsfälle müssen also Daten gesammelt und das Modell feinabgestimmt werden. Wir bieten jedoch Anweisungen zur Feinabstimmung in der Code-Veröffentlichung für SAM 3. Bei SAM 3D gibt es die genannten Handrekonstruktion. Es gibt außerdem Bemühungen, die Geschwindigkeit der SAM 3D-Modelle zu verbessern, damit auch sie schneller laufen können.


(emw)



Source link

Weiterlesen

Beliebt