Herstellen einer Verbindung mit und Verwalten von Azure Databricks Unity Catalog in Microsoft Purview
In diesem Artikel wird beschrieben, wie Sie Azure Databricks registrieren und wie Sie azure Databricks Unity Catalog in Microsoft Purview authentifizieren und damit interagieren. Weitere Informationen zu Microsoft Purview finden Sie im Einführungsartikel.
Unterstützte Funktionen
Metadatenextraktion | Vollständiger Scan | Inkrementelle Überprüfung | Bereichsbezogene Überprüfung | Klassifizierung | Bezeichnen | Zugriffsrichtlinie | Herkunft | Datenfreigabe | Live-Ansicht |
---|---|---|---|---|---|---|---|---|---|
Ja | Ja | Ja | Ja | Ja | Nein | Nein | Ja | Nein | Nein |
Beim Überprüfen von Azure Databricks Unity Catalog unterstützt Microsoft Purview Folgendes:
- Extrahieren von technischen Metadaten, einschließlich:
- Metastore
- Kataloge
- Schemata
- Tabellen einschließlich der Spalten
- Ansichten einschließlich der Spalten
- Abrufen der Herkunft für Ressourcenbeziehungen zwischen Tabellen, Sichten und Spalten während Notebookausführungen.
Beim Einrichten der Überprüfung können Sie den gesamten Unity Catalog überprüfen oder die Überprüfung auf eine Teilmenge von Katalogen festlegen.
Hinweis
Dieser Connector stellt Metadaten aus Azure Databricks Unity Catalog bereit. Informationen zum Überprüfen von Metadaten im Bereich des Azure Databricks-Arbeitsbereichs finden Sie unter Azure Databricks Hive-Metastore-Connector.
Bekannte Einschränkungen
- Wenn das Objekt aus der Datenquelle gelöscht wird, wird das entsprechende Objekt in Microsoft Purview bei der nachfolgenden Überprüfung derzeit nicht automatisch entfernt.
- Weitere Informationen zu anderen Einschränkungen im Zusammenhang mit der nativen Azure Databricks-Herkunft finden Sie in der Azure Databricks-Dokumentation.
Voraussetzungen
Sie müssen über ein Azure-Konto mit einem aktiven Abonnement verfügen. Erstellen Sie kostenlos ein Konto.
Sie müssen über ein aktives Microsoft Purview-Konto verfügen.
Sie benötigen eine Azure-Key Vault und um Microsoft Purview-Berechtigungen für den Zugriff auf Geheimnisse zu erteilen.
Sie benötigen Datenquellenadministrator- und Datenleserberechtigungen, um eine Quelle zu registrieren und im Microsoft Purview-Governanceportal zu verwalten. Weitere Informationen zu Berechtigungen finden Sie unter Zugriffssteuerung in Microsoft Purview.
Um Azure Databricks Unity Catalog zu überprüfen, stellt Microsoft Purview eine Verbindung mit einem SQL-Warehouse in Ihrem Arbeitsbereich her und verwendet das persönliche Zugriffstoken für die Authentifizierung. Sie benötigen einen Azure Databricks-Arbeitsbereich, der Unity Catalog aktiviert und an den Metastore angefügt ist, den Sie überprüfen möchten. In Ihrem Azure Databricks-Arbeitsbereich:
Erstellen Sie ein SQL-Warehouse. Sie können ggf. auch das automatisch erstellte Starter-Warehouse verwenden.
Notieren Sie sich den HTTP-Pfad. Sie finden sie im Azure Databricks-Arbeitsbereich –> SQL Warehouses –> Ihr Warehouse –> Verbindungsdetails –> HTTP-Pfad.
Stellen Sie sicher, dass der Benutzer über die Berechtigung Kann verwenden verfügt, um eine Verbindung mit dem Azure Databricks SQL-Warehouse herzustellen. Weitere Informationen finden Sie unter Zugriffssteuerung für DAS SQL-Warehouse.
Zum Abrufen der Herkunft aus Azure Databricks mithilfe von Microsoft Purview müssen die folgenden Voraussetzungen erfüllt sein:
Systemschema aktivieren: Das Systemschema system.access muss in Ihrem Unity Catalog aktiviert sein. Dies ist erforderlich, da Herkunftsinformationen in Systemtabellen gespeichert werden, und die Aktivierung dieses Schemas ermöglicht den Zugriff auf diese Tabellen. Erfahren Sie mehr über die Überwachung der Nutzung mit Systemtabellen.
Benutzerberechtigungen: Das für die Überprüfung verwendete Benutzerkonto muss über SELECT-Berechtigungen für die folgenden Systemtabellen verfügen:
system.access.table_lineage
system.access.column_lineage
Diese Berechtigungen sind erforderlich, da Datenherkunftsdaten direkt aus den Systemtabellen gelesen werden, und ohne den erforderlichen Zugriff kann Microsoft Purview die Herkunftsinformationen nicht abrufen.
Wenn Ihr Azure Databricks-Arbeitsbereich den Zugriff aus einem öffentlichen Netzwerk nicht zulässt oder Ihr Microsoft Purview-Konto nicht den Zugriff aus allen Netzwerken ermöglicht, können Sie die Verwaltete Virtual Network Integration Runtime oder eine von Kubernetes unterstützte selbstgehostete Integration Runtime für die Überprüfung verwenden. Sie können bei Bedarf einen verwalteten privaten Endpunkt für Azure Databricks einrichten, um eine private Konnektivität herzustellen.
Authentifizierung für eine Überprüfung
Sie können persönliche Zugriffstoken, verwaltete Identitäten oder Dienstprinzipal-Authentifizierungsmethoden zum Überprüfen von Azure Databricks Unity Catalog verwenden.
- System- oder benutzerseitig zugewiesene verwaltete Identität
- Persönliches Zugriffstoken
- Dienstprinzipal
Bei Verwendung einer system- oder benutzerseitig zugewiesenen verwalteten Identität
- Wählen Sie unter Anmeldeinformationen die systemseitig oder benutzerseitig zugewiesene verwaltete Identität aus.
Für die Verwendung einer benutzerseitig zugewiesenen verwalteten Identität müssen Sie die Authentifizierung mit verwalteten Azure-Identitäten für Azure Databricks einrichten.
Für alle Objekte, die Sie in Microsoft Purview einbinden möchten, muss der Benutzer oder Dienstprinzipal mindestens über select-Berechtigungen für Tabellen/Sichten, USE CATALOG für den Objektkatalog und USE SCHEMA für das Schema des Objekts verfügen.
Um alle Objekte in einem Unity Catalog-Metastore zu überprüfen, verwenden Sie einen Benutzer oder Dienstprinzipal mit metastore-Administratorrolle. Weitere Informationen finden Sie unter Verwalten von Berechtigungen in Unity Catalog und Unity Catalog-Berechtigungen und sicherungsfähigen Objekten.
Für die Klassifizierung muss der Benutzer auch über die SELECT-Berechtigung für die Tabellen/Sichten verfügen, um Beispieldaten abzurufen.
Registrieren
In diesem Abschnitt wird beschrieben, wie Sie einen Azure Databricks-Arbeitsbereich in Microsoft Purview mithilfe des Microsoft Purview-Governanceportals registrieren.
Wechseln Sie zu Ihrem Microsoft Purview-Konto.
Wählen Sie im linken Bereich Data Map aus.
Wählen Sie Registrieren aus.
Wählen Sie unter Quellen registrieren die Option Azure Databricks Unity Catalog Continue (Azure Databricks Unity Catalog>Weiter) aus.
Gehen Sie auf dem Bildschirm Quellen registrieren (Azure Databricks Unity Catalog) wie folgt vor:
Geben Sie unter Name einen Namen ein, den Microsoft Purview als Datenquelle auflistet.
Geben Sie für Metastore-ID die Metastore-ID für den Azure Databricks Unity Catalog-Metastore an, den Sie überprüfen möchten.
Wählen Sie eine Sammlung aus der Liste aus.
- Klicken Sie auf Fertigstellen.
Überprüfung
Tipp
So beheben Sie Probleme mit der Überprüfung:
- Vergewissern Sie sich, dass Sie alle Voraussetzungen erfüllt haben.
- Lesen Sie unsere Dokumentation zur Problembehandlung bei Der Überprüfung.
Führen Sie die folgenden Schritte aus, um Azure Databricks zu überprüfen, um Ressourcen automatisch zu identifizieren. Weitere Informationen zum Scannen im Allgemeinen finden Sie unter Scans und Erfassung in Microsoft Purview.
Wechseln Sie zu Quellen.
Wählen Sie die registrierte Azure Databricks-Instanz aus.
Wählen Sie + Neuer Scan aus.
Geben Sie die folgenden Details an:
Name: Geben Sie einen Namen für die Überprüfung ein.
Herstellen einer Verbindung über Integration Runtime: Wählen Sie die Standardmäßige Azure Integration Runtime, verwaltete VNet IR oder eine von Kubernetes unterstützte selbstgehostete Integration Runtime aus, die Sie erstellt haben.
Anmeldeinformationen: Wählen Sie die Anmeldeinformationen aus, um eine Verbindung mit Ihrer Datenquelle herzustellen. Stellen Sie folgendes sicher:
- Wählen Sie Zugriffstoken, verwaltete Identität oder Dienstprinzipal aus.
- Sie können beim Registrieren einer Überprüfung ein neues Zugriffstoken oder Dienstprinzipal-Anmeldeinformationen erstellen. Weitere Informationen finden Sie unter Anmeldeinformationen für die Quellauthentifizierung in Microsoft Purview.
Arbeitsbereichs-URL: Geben Sie die URL für den Arbeitsbereich an, den Sie überprüfen möchten.
HTTP-Pfad: Geben Sie den HTTP-Pfad des Databricks SQL Warehouse an, mit dem Microsoft Purview eine Verbindung herstellt und die Überprüfung durchführt, z. B.
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
. Sie finden sie im Azure Databricks-Arbeitsbereich –> SQL Warehouses –> Ihr Warehouse –> Verbindungsdetails –> HTTP-Pfad.Herkunftsextraktion: Schalten Sie die Herkunftsextraktion auf Ein um, um die Herkunft der gescannten Ressourcen abzurufen.
Wählen Sie Verbindung testen aus, um die Einstellungen zu überprüfen.
Wählen Sie Weiter.
Wählen Sie für Scantrigger aus, ob Sie einen Zeitplan einrichten oder die Überprüfung einmal ausführen möchten.
Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.
Nachdem die Überprüfung erfolgreich abgeschlossen wurde, sehen Sie sich an, wie Sie Ressourcen durchsuchen und durchsuchen.
Anzeigen Ihrer Überprüfungen und Überprüfungsausführungen
So zeigen Sie vorhandene Überprüfungen an:
- Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.
- Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
- Wählen Sie die Überprüfung aus, die Ergebnisse enthält, die Sie anzeigen möchten. Im Bereich werden alle vorherigen Überprüfungsausführungen zusammen mit den status und Metriken für jede Überprüfungsausführung angezeigt.
- Wählen Sie die Ausführungs-ID aus, um die Details der Überprüfungsausführung zu überprüfen.
Verwalten ihrer Überprüfungen
So bearbeiten, abbrechen oder löschen Sie eine Überprüfung:
Wechseln Sie zum Microsoft Purview-Portal. Wählen Sie im linken Bereich Data Map aus.
Wählen Sie die Datenquelle aus. Sie können eine Liste der vorhandenen Überprüfungen für diese Datenquelle unter Zuletzt verwendete Überprüfungen anzeigen, oder Sie können alle Überprüfungen auf der Registerkarte Scans anzeigen.
Wählen Sie die Überprüfung aus, die Sie verwalten möchten. Anschließend können Sie:
- Bearbeiten Sie die Überprüfung, indem Sie Überprüfung bearbeiten auswählen.
- Brechen Sie eine laufende Überprüfung ab, indem Sie Überprüfungsausführung abbrechen auswählen.
- Löschen Sie Ihre Überprüfung, indem Sie Überprüfung löschen auswählen.
Hinweis
- Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.
Durchsuchen und Durchsuchen von Ressourcen
Nachdem Sie Ihre Azure Databricks-Instanz überprüft haben, können Sie Unified Catalog durchsuchen oder Unified Catalog suchen, um die Ressourcendetails und die Herkunft anzuzeigen.
Beim Durchsuchen nach Quelltypen werden zwei Einträge für Azure Databricks Unity Catalog bzw . Azure Databricks angezeigt. Das erste enthält die Unity Catalog-Artefakte einschließlich des Metastores und seiner Kataloge/Schemas/Tabellen/Sichten, während letztere die Arbeitsbereichsartefakte enthält.
In der Azure Databricks-Arbeitsbereichsressource finden Sie den zugeordneten Unity-Katalog auf der Registerkarte Eigenschaften. Umgekehrt gilt auch.
Herkunft
Wenn Sie eine bestimmte Azure Databricks-Ressource durchsuchen, können Sie die Notebooks sehen, die die Herkunft erfasst haben.
Wechseln Sie zur Registerkarte Asset –> Herkunft. Sie können die Herkunft des Azure Databricks Notebook-Medienobjekts oder der Tabellen-/Ansichtsressource anzeigen, falls zutreffend.
Informationen zu den unterstützten Databricks Unity Catalog-Herkunftsszenarien finden Sie im Abschnitt unterstützte Funktionen . Weitere Informationen zur Herkunft im Allgemeinen finden Sie im Benutzerhandbuch zur Datenherkunft und -herkunft.
Häufig gestellte Fragen (FAQ)
Wird die Datenherkunft auf Spaltenebene aus Unity Catalog von Microsoft Purview erfasst?
Microsoft Purview kann die Herkunft sowohl auf der Tabellen-/Sichtebene von Unity Catalog als auch auf Spaltenebene erfassen.
Die Herkunft auf Spaltenebene wird nicht angezeigt. Was geschieht?
Die Herkunft auf Spaltenebene wird generiert, wenn Ihr Notebook aus einem Cluster ausgeführt wird und nicht über ein SQL-Warehouse generiert wird.
Ich erhalte einen Timeoutfehler. Was soll ich tun?
Wenn in Ihrem Arbeitsbereich eine große Menge an Ressourcen vorhanden ist, kann Die Überprüfung möglicherweise nicht abgeschlossen werden. In diesem Fall können Sie Die Überprüfung auf einige Kataloge gleichzeitig festlegen, wodurch die Menge der Ressourcen pro Überprüfung reduziert und Ihre Überprüfungen abgeschlossen werden können.
Ich habe gerade mein Notizbuch ausgeführt, aber Microsoft Purview hat die Herkunft nicht abgerufen. Was passiert?
Es kann einige Minuten dauern, bis Databricks die Herkunftsinformationen in den Systemtabellen nach der Ausführung Ihres Notebooks aktualisiert. Microsoft Purview kann die Herkunft abrufen, sobald die Systemtabellen aktualisiert wurden.
Nächste Schritte
Nachdem Ihre Quelle registriert wurde, verwenden Sie die folgenden Leitfäden, um mehr über Microsoft Purview und Ihre Daten zu erfahren: