Künstliche Intelligenz
Datenarchitektur: DuckLake vereint Katalog und Tabellenmetadaten
Mit dem Fokus auf Datenanalyse und OLAP-Workloads hat DuckDB Labs die SQL-Datenbank DuckDB als leichte und weniger komplexe Alternative zu etablierten Werkzeugen wie Apache Spark oder pandas entwickelt. Künftig sollen Lakehouse-Formate wichtiger werden, verkündete DuckDB Anfang des Jahres auf seiner Entwicklerkonferenz DuckCon. Viele Anwenderinnen und Anwender von DuckDB erwarteten daraufhin eine bessere Unterstützung für Apache Iceberg und Delta – insbesondere für das Schreiben und nicht nur Lesen.
Stattdessen kündigte DuckDB Labs mit DuckLake aber eine komplett neue Spezifikation inklusive Implementierung eines Lakehouse-Formats an – und damit eine direkte Konkurrenz zu Iceberg und Co..
- DuckLake unterstützt die Trennung von Datenverarbeitung und -speicherung – für einfachere Skalierung.
- Für schnelle Metadatenzugriffe per SQL-Abfrage greift DuckLake auf Datenbanken wie DuckDB oder PostgreSQL zurück.
- DuckLake tritt mit einer einfachen, skalierbaren Architektur gegen OpenTable-Formate wie Apache Iceberg und Delta an.
Im Kern legt die Spezifikation fest, alle Metadaten eines Lakehouse in einer relationalen Datenbank und die eigentlichen Daten wie üblich in einem Blob/Object Store zu speichern. Das Speichern in der relationalen Datenbank soll sowohl Performancevorteile bieten als auch den Weg für neue Funktionen eröffnen.
Das war die Leseprobe unseres heise-Plus-Artikels „Datenarchitektur: DuckLake vereint Katalog und Tabellenmetadaten“.
Mit einem heise-Plus-Abo können Sie den ganzen Artikel lesen.