Künstliche Intelligenz

Datenarchitektur: DuckLake vereint Katalog und Tabellenmetadaten


Mit dem Fokus auf Datenanalyse und OLAP-Workloads hat DuckDB Labs die SQL-Datenbank DuckDB als leichte und weniger komplexe Alternative zu etablierten Werkzeugen wie Apache Spark oder pandas entwickelt. Künftig sollen Lakehouse-Formate wichtiger werden, verkündete DuckDB Anfang des Jahres auf seiner Entwicklerkonferenz DuckCon. Viele Anwenderinnen und Anwender von DuckDB erwarteten daraufhin eine bessere Unterstützung für Apache Iceberg und Delta – insbesondere für das Schreiben und nicht nur Lesen.

Stattdessen kündigte DuckDB Labs mit DuckLake aber eine komplett neue Spezifikation inklusive Implementierung eines Lakehouse-Formats an – und damit eine direkte Konkurrenz zu Iceberg und Co..

  • DuckLake unterstützt die Trennung von Datenverarbeitung und -speicherung – für einfachere Skalierung.
  • Für schnelle Metadatenzugriffe per SQL-Abfrage greift DuckLake auf Datenbanken wie DuckDB oder PostgreSQL zurück.
  • DuckLake tritt mit einer einfachen, skalierbaren Architektur gegen OpenTable-Formate wie Apache Iceberg und Delta an.

Im Kern legt die Spezifikation fest, alle Metadaten eines Lakehouse in einer relationalen Datenbank und die eigentlichen Daten wie üblich in einem Blob/Object Store zu speichern. Das Speichern in der relationalen Datenbank soll sowohl Performancevorteile bieten als auch den Weg für neue Funktionen eröffnen.


Das war die Leseprobe unseres heise-Plus-Artikels „Datenarchitektur: DuckLake vereint Katalog und Tabellenmetadaten“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.



Source link

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Beliebt

Die mobile Version verlassen