Entwicklung & Code

OpenSharing soll proprietäre Datensilos in der KI-Welt aufbrechen

Mit OpenSharing hat das Unternehmen Databricks ein offenes Protokoll vorgestellt, das den sicheren Austausch von Daten und KI-Assets wie Modellen, Agent-Skills und unstrukturierten Daten über Plattform-, Cloud- und Organisationsgrenzen hinweg standardisieren soll. Das Projekt wird ab sofort von der Linux Foundation als Open-Source-Community-Projekt gehostet und steht auf GitHub zur Verfügung.

Weiterlesen nach der Anzeige

Umfassender und standardisierter Datenaustausch

OpenSharing baut auf dem von Databricks bereits 2021 eingeführten Delta Sharing auf, einem Open-Source-Protokoll für den sicheren Datenaustausch. Während sich Delta Sharing auf strukturierte Daten in Tabellenformaten wie Delta Lake konzentrierte, erweitert OpenSharing das unterstützte Spektrum an Daten und Formaten erheblich: Neben tabellarischen Daten lassen sich nun auch KI-Modellartefakte, Agent-Skills – also Funktionen und Tools für autonome Agenten – sowie unstrukturierte Daten wie Dokumente oder Mediendateien über ein einheitliches Protokoll teilen. Das Protokoll orientiert sich zudem am Zero-Copy-Prinzip: Daten werden nicht repliziert, sondern Clients greifen direkt auf den Quellspeicher zu.

Vom 7. bis 8. Oktober 2026 bietet die data2day in Köln ein umfassendes Programm zu Data Science, Data Engineering und Data Analytics. Ein besonderer Fokus liegt auf Agentic AI und Analytics, modernen Datenarchitekturen, rechtlichen Aspekten und Einblicken in die Unternehmenspraxis.

Ab sofort sind Tickets zum Frühbucherpreis verfügbar.

Technisch definiert OpenSharing standardisierte APIs für Discovery, Authorization und Access. Laut den Projektverantwortlichen können Nutzer damit ein einheitliches Schnittstellenset ansprechen, unabhängig von der dahinterliegenden Plattform. Die konkreten Authentifizierungsmechanismen – etwa ob OAuth2 oder OIDC zum Einsatz kommen – sind in den bisherigen Veröffentlichungen nicht im Detail dokumentiert. Die vollständige Spezifikation soll jedoch über das GitHub-Repository zugänglich gemacht werden. Aus der Delta-Sharing-Architektur ist bekannt, dass ein Sharing-Server als Kontrollebene fungiert und der eigentliche Datenzugriff über vorab signierte URLs auf Cloud- oder Objektspeicher läuft.

Eine wesentliche Neuerung gegenüber Delta Sharing ist der Support für Apache-Iceberg-Clients. Provider können damit über ein einzelnes Protokoll sowohl Delta- als auch Iceberg-basierte Empfänger bedienen. Betreiber von Lakehouse-Architekturen profitieren dadurch von einer reduzierten Fragmentierung im Open-Data-Ökosystem: Engines wie Spark, Trino oder Flink mit Iceberg-Support erhalten einen standardisierten Zugriffspfad auf geteilte Assets, ohne dafür auf proprietäre Adapter zurückgreifen zu müssen.

Linux Foundation übernimmt Governance

Weiterlesen nach der Anzeige

Die Linux Foundation stellt für OpenSharing herstellerneutrale Governance-Strukturen bereit. Laut Jim Zemlin, CEO der Linux Foundation, soll OpenSharing das „kritische Bedürfnis nach einem gemeinsamen, herstellerneutralen Framework, das Organisationen den sicheren und interoperablen Austausch von KI-Assets über Plattformen und Ökosysteme hinweg ermöglicht“, erfüllen. Das Projekt reiht sich damit in andere Infrastrukturstandards unter dem Dach der Linux Foundation ein, bei denen neutrale Governance für breitere Akzeptanz sorgen soll, darunter etwa Kubernetes, RISC-V und MCP (letzteres über die Agentic AI Foundation, einer Stiftung innerhalb der Linux Foundation).

Delta Sharing hat nach Einschätzung von Databricks-Mitgründer und CTO Matei Zaharia bereits bewiesen, dass die Branche offene Standards bevorzuge. OpenSharing werde dieses Prinzip auf den gesamten KI-Stack und das plattformübergreifende Ökosystem erweitern.

Relevanz für europäische Unternehmen

Bei Unternehmen mit strengen Datenschutz- und Souveränitätsanforderungen – etwa in regulierten Branchen wie dem europäischen Bankwesen, Gesundheitswesen oder der öffentlichen Verwaltung – dürfte OpenSharing auf Interesse stoßen. Durch das Zero-Copy-Prinzip verbleiben Daten physisch in der bestehenden Speicherumgebung, sei es ein eigenes Rechenzentrum oder eine europäische Cloud. Cloud-basierte KI-Dienste greifen über das Protokoll zu, ohne dass Daten bewegt werden müssen. Das erleichtert die Einhaltung von DSGVO-Anforderungen und Daten-Minimierungsansätzen, weil für alle Beteiligten nicht mehr in jedem Fall separate Kopien angelegt werden müssen.

Das OpenSharing-Ökosystem im Überblick

(Bild: OpenSharing-IO)

Zum Projektstart positionieren sich bereits zahlreiche Unternehmen als Unterstützer. Atlassian hat Data Shares in Atlassian Analytics eingeführt und nutzt OpenSharing, um Zugriff auf Cloud-Daten in großem Maßstab zu ermöglichen. SAP setzt in der Business Data Cloud auf das Protokoll, Stripe integriert es nativ in die Stripe Data Pipeline und die London Stock Exchange Group (LSEG) bindet es in ihre „LSEG Everywhere“-Strategie ein.

Dass mit SAP ein zentraler europäischer Softwareanbieter das Protokoll früh übernimmt und auch Storage-Hersteller wie NetApp und HPE – mit starker Präsenz in europäischen Rechenzentren – ihre Unterstützung angekündigt haben, unterstreicht die Ausrichtung auf regulierte On-Premise-Szenarien. OpenSharing positioniert sich damit als offene Alternative zu den proprietären Datenmarktplätzen der großen Hyperscaler.

Lesen Sie auch

(map)

Source link

Verwandte Themen:aufbrechen Datensilos der DSGVO IT KIWelt Künstliche Intelligenz Linux Foundation open source OpenAI OpenSharing proprietäre SAP soll

Inspohub