Freigeben über


Interoperabilität und Nutzbarkeit für das Data Lakehouse

In diesem Artikel werden die Architekturprinzipien der Säule Interoperabilität und Benutzerfreundlichkeit behandelt, die sich auf die Interaktion des Lakehouse mit Benutzern und anderen Systemen beziehen. Eine der grundlegenden Ideen des Lakehouse ist es, ein großartiges Benutzererlebnis für alle Personas zu bieten, die damit arbeiten, und mit einem breiten Ökosystem externer Systeme interagieren zu können.

  • Interoperabilität ist die Fähigkeit eines Systems, mit anderen Systemen zu arbeiten und zu integrieren. Es impliziert die Interaktion zwischen verschiedenen Komponenten und Produkten, möglicherweise von mehreren Anbietern, und zwischen früheren und zukünftigen Versionen desselben Produkts.
  • Die Benutzerfreundlichkeit ist das Maß dafür, wie gut ein System es den Benutzern ermöglicht, Aufgaben sicher, effektiv und effizient auszuführen.

Architekturdiagramm zur Interoperabilität und Nutzbarkeit von Lakehouse für Databricks.

Die Grundsätze dieser Säule tragen dazu bei:

  • Erzielen Sie eine konsistente und kollaborative Benutzererfahrung.
  • Nutzen Sie Synergien über Clouds hinweg.
  • Vereinfachen Sie die Integration von und zu Lakehouse.
  • Reduzieren Sie die Trainings- und Aktivierungskosten.

Was letztlich zu einer schnelleren Wertschöpfung führt.

Prinzipien der Interoperabilität und Benutzerfreundlichkeit

  1. Definieren von Standards für die Integration

    Die Integration hat unterschiedliche Aspekte und kann auf vielfältige Weise durchgeführt werden. Um die rasante Zunahme und Ausuferung von Tools und Ansätzen zu vermeiden, müssen bewährte Methoden definiert und eine Liste von unterstützten und bevorzugten Tools und Connectors bereitgestellt werden.

    Eines der wichtigsten Architekturprinzipien sind Modularität und lose Kopplung anstelle enger Integration. Dadurch werden Abhängigkeiten zwischen Komponenten und Arbeitslasten reduziert, Nebenwirkungen beseitigt und die unabhängige Entwicklung auf unterschiedlichen Zeitskalen ermöglicht. Verwenden Sie Datasets und ihr Schema als Vertrag. Trennen Sie Workloads wie Datenverarbeitungsaufträge (z. B. das Laden und Umwandeln von Daten in einen Data Lake) von wertschöpfenden Aufträgen (z.B. Berichte, Dashboards und Data Science Feature Engineering). Definieren Sie einen zentralen Datenkatalog mit Richtlinien für Datenformate, Datenqualität und Datenlebenszyklus.

  2. Verwenden von offenen Schnittstellen und offenen Datenformaten

    Häufig werden Lösungen entwickelt, bei denen nur über ein bestimmtes System auf Daten zugegriffen werden kann. Dies kann zu einer Anbieterbindung führen, aber auch zu einem enormen Kostentreiber werden, wenn der Datenzugriff über dieses System lizenzgebührenpflichtig ist. Die Verwendung offener Datenformate und Schnittstellen trägt dazu bei, dies zu vermeiden. Sie vereinfachen auch die Integration mit bestehenden Systemen und eröffnen ein Ökosystem von Partnern, die ihre Tools bereits mit dem Lakehouse integriert haben.

    Wenn Sie Open-Source-Ökosysteme wie Python oder R für Data Science oder Spark oder ANSI SQL für den Datenzugriff und die Kontrolle der Zugriffsrechte verwenden, werden Sie es leichter haben, Personal für Projekte zu finden. Es wird auch potenzielle Migrationen zu und von einer Plattform vereinfachen.

  3. Vereinfachen der Implementierung neuer Anwendungsfälle

    Um die Daten im Data Lake optimal nutzen zu können, müssen Benutzer ihre Anwendungsfälle auf der Plattform problemlos bereitstellen können. Dies beginnt mit schlanken Prozessen rund um den Plattformzugriff und die Datenverwaltung. Der Selbstzugriff auf die Plattform verhindert zum Beispiel, dass ein zentrales Team zum Engpass wird. Gemeinsam genutzte Umgebungen und vordefinierte Blaupausen für die Bereitstellung neuer Umgebungen stellen sicher, dass die Plattform für jeden Geschäftsbenutzer schnell verfügbar ist.

  4. Sicherstellen von Datenkonsistenz und Benutzerfreundlichkeit

    Zwei wichtige Aktivitäten auf einer Datenplattform sind Datenveröffentlichung und Datennutzung. Aus der Veröffentlichungsperspektive sollten Daten als Produkt angeboten werden. Die Herausgeber müssen einen definierten Lebenszyklus mit Blick auf die Verbraucher einhalten, und die Daten müssen mit verwalteten Schemata, Beschreibungen usw. klar definiert sein.

    Es ist auch wichtig, semantisch konsistente Daten bereitzustellen, damit Verbraucher unterschiedliche Datensätze leicht verstehen und richtig kombinieren können. Darüber hinaus müssen alle Daten über einen zentralen Katalog mit ordnungsgemäß kuratierten Metadaten und Datenlinien leicht auffindbar und für Verbraucher zugänglich sein.

Nächstes: Bewährte Praktiken für Interoperabilität und Benutzerfreundlichkeit

Siehe Bewährte Methoden für Interoperabilität und Benutzerfreundlichkeit.