Teilen über


Freigeben von Daten mithilfe des Databricks-zu-Databricks-Delta Sharing-Protokolls (für Anbieter)

Dieser Artikel bietet eine Übersicht darüber, wie Sie Databricks-zu-Databricks-Delta Sharing verwenden, um Daten unabhängig vom Konto oder Cloudhost sicher für jeden Databricks-Benutzer freizugeben, sofern dieser Benutzer Zugriff auf einen Arbeitsbereich hat, der für Unity Catalog aktiviert ist.

Hinweis

Wenn Sie Datenempfänger*in sind (Benutzer*in oder Benutzergruppe, für den bzw. die Databricks-Daten freigegeben werden), finden Sie weitere Informationen unter Zugreifen auf Daten, die mithilfe von Delta Sharing für Sie freigegeben wurden (für Empfänger).

Gründe für die Verwendung von Databricks-zu-Databricks Delta Sharing

Es gibt drei Möglichkeiten zum Freigeben von Daten mithilfe von Delta Sharing.

  1. Mit dem Databricks-zu-Databricks-Freigabeprotokoll, das in diesem Artikel besprochen wurde, können Sie Daten aus Ihrem Unity Catalog-fähigen Arbeitsbereich für Benutzer*innen freigeben, die ebenfalls Zugriff auf einen Unity Catalog-fähigen Databricks-Arbeitsbereich haben.

    Dieser Ansatz verwendet den Delta Sharing-Server, der in Azure Databricks integriert ist und Unterstützung für die gemeinsame Nutzung von Notebooks, Unity Catalog-Datengovernance, Überwachung und Nutzungsverfolgung sowohl für Anbieter als auch für Empfänger bietet. Die Integration in Unity Catalog vereinfacht die Einrichtung und Governance für Anbieter und Empfänger und verbessert die Leistung.

  2. Das Databricks-Protokoll für offenen Freigaben lässt Sie Daten, die Sie in einem Unity Catalog-fähigen Databricks-Arbeitsbereich verwalten, für Benutzer*innen auf einer beliebigen Computerplattform freigeben.

    Siehe Freigeben von Daten mithilfe des offenen Delta Sharing-Protokolls (für Anbieter).

  3. Eine kundenseitig verwaltete Implementierung des Open-Source-Delta Sharing-Servers macht die Freigabe zwischen beliebigen Plattformen (ganz gleich, ob Databricks oder nicht) möglich.

    Siehe github.com/delta-io/delta-sharing.

Eine Einführung in Delta Sharing und weitere Informationen zu diesen drei Ansätzen finden Sie unter Was ist Delta Sharing?.

Workflow bei Databricks-zu-Databricks-Delta Sharing

Dieser Abschnitt bietet eine allgemeine Übersicht über den Databricks-zu-Databricks-Freigabeworkflow mit Links zu ausführlichen Dokumentationen für jeden Schritt.

Databricks-zu-Databricks-Delta Sharing-Modell:

  1. Ein Datenempfänger gibt einem Datenanbieter den eindeutigen Freigabebezeichner für den Unity Catalog-Metastore in Databricks, der an den Databricks-Arbeitsbereich angefügt ist, den der Empfänger (der einen Benutzer oder eine Benutzergruppe darstellt) verwendet, um auf die vom Datenanbieter freigegebenen Daten zuzugreifen.

    Ausführliche Informationen finden Sie unter Schritt 1: Anfordern des Freigabebezeichners des Empfängers.

  2. Der Datenanbieter erstellt eine Freigabe im Unity Catalog-Metastore des Anbieters. Dieses benannte Objekt enthält eine Auflistung von Tabellen, Ansichten, Volumes und Notizbüchern, die im Metastore registriert sind.

    Ausführliche Informationen finden Sie unter Erstellen und Verwalten von Freigaben für Delta Sharing.

  3. Der Datenanbieter erstellt ein Empfängerobjekt im Unity Catalog-Metastore des Anbieters. Dieses benannte Objekt stellt den Benutzer oder die Gruppe von Benutzern dar, die auf die in der Freigabe enthaltenen Daten zugreifen, zusammen mit dem Freigabebezeichner des Unity Catalog-Metastores, der an den Arbeitsbereich angefügt ist, den der Benutzer bzw. die Benutzergruppe für den Zugriff auf die Freigabe verwendet. Der Freigabebezeichner ist der Schlüsselbezeichner, der die sichere Verbindung ermöglicht.

    Ausführliche Informationen finden Sie unter Schritt 2: Erstellen des Empfängers.

  4. Der Datenanbieter gewährt dem Empfänger Zugriff auf die Freigabe.

    Weitere Informationen finden Sie unter Verwalten des Zugriffs auf Delta Sharing-Datenfreigaben (für Anbieter).

  5. Die Freigabe wird im Databricks-Arbeitsbereich des Empfängers verfügbar, und Benutzer können mit dem Katalog-Explorer, der Databricks-CLI oder SQL-Befehlen in einem Azure Databricks-Notebook oder dem Databricks SQL-Abfrage-Editor darauf zugreifen.

    Um auf die Tabellen, Ansichten und Notebooks in einer Freigabe zuzugreifen, muss ein*e Metastore-Administrator*in oder privilegierte*r Benutzer*in einen Katalog aus der Freigabe erstellen. Anschließend können die Benutzer*innen oder andere Benutzer*innen, denen die entsprechenden Berechtigungen gewährt werden, anderen Benutzer*innen Zugriff auf den Katalog und die Objekte im Katalog gewähren. Das Erteilen von Berechtigungen für freigegebene Kataloge und Datenressourcen funktioniert genauso wie bei allen anderen Ressourcen, die im Unity-Katalog registriert sind, mit dem wichtigen Unterschied, dass Benutzer*innen nur Lesezugriff auf Objekte in Katalogen gewährt werden kann, die aus Delta-Freigabefreigaben erstellt werden.

    Freigegebene Notebooks befinden sich auf Katalogebene, und jeder Benutzer mit den USE CATALOG-Berechtigungen für den Katalog kann darauf zugreifen.

    Weitere Informationen finden Sie unter Lesen von per Databricks-zu-Databricks Delta Sharing freigegebenen Daten (für Empfänger).

Verbesserung der Leistung beim Lesen von Tabellen durch Teilen der Verlaufsgeschichte

Wichtig

Dieses Feature befindet sich in der Public Preview.

Tabellenfreigaben von Databricks zu Databricks können die Leistung verbessern, indem die Verlaufsfreigabe aktiviert wird. Die Verlaufsfreigabe verbessert die Leistung, indem temporäre Sicherheitsanmeldeinformationen aus Ihrem Cloudspeicher verwendet werden, die auf das Stammverzeichnis der freigegebenen Delta-Tabelle des Anbieters begrenzt sind. Dies führt zu einer Leistung, die mit dem direkten Zugriff auf Quelltabellen vergleichbar ist.

  • Geben Sie für neue Tabellenfreigaben WITH HISTORY beim Erstellen der Tabellenfreigabe an. Weitere Informationen finden Sie unter Hinzufügen von Tabellen zu einer Freigabe. Wenn Sie eine Tabelle mithilfe der Berechnung für Databricks Runtime 16.2 und höher freigeben, ist WITH HISTORY die Standardeinstellung.
  • Bei vorhandenen Tabellenfreigaben müssen Sie die Freigabe ändern, um den Tabellenverlauf freizugeben. Weitere Informationen finden Sie unter Aktualisieren von Freigaben. Wenn Sie eine Tabelle mithilfe der Berechnung für Databricks Runtime 16.2 und höher freigeben, ist WITH HISTORY die Standardeinstellung.

Wenn Sie ein gesamtes Schema freigeben, werden alle Tabellen im Schema standardmäßig mit Verlaufshistorie freigegeben.

Hinweis

Tabellen mit aktivierter Partitionierung profitieren nicht von den Leistungsvorteilen der Verlaufsfreigabe. Weitere Informationen finden Sie unter Angeben der freizugebenden Tabellenpartitionen.

Datenschutz bei der Verlaufsfreigabe

Anbieter sollten beachten, dass die Verlaufsfreigabe von Databricks zu Databricks für Delta Sharing-Empfänger den temporären Lesezugriff sowohl auf die Datendateien als auch auf das Delta-Protokoll gewährt. Das Delta-Protokoll enthält den Commitverlauf für jede Tabellenversion, Informationen zum Committer (ähnlich dem GitHub-Commitverlauf) und gelöschte Daten, die nicht gevakutiert wurden.