Datenqualität für Databricks Unity Catalog-Datenbanken
Um Unity Catalog verwenden zu können, muss Ihr Azure Databricks-Arbeitsbereich für Unity Catalog aktiviert sein. Dies bedeutet, dass der Arbeitsbereich an einen Unity Catalog-Metastore angefügt ist. Alle neuen Arbeitsbereiche werden bei der Erstellung automatisch für Unity Catalog aktiviert, aber ältere Arbeitsbereiche erfordern möglicherweise, dass ein Kontoadministrator Unity Catalog manuell aktiviert. Unabhängig davon, ob Ihr Arbeitsbereich automatisch für Unity Catalog aktiviert wurde, sind auch die folgenden Schritte erforderlich, um mit Unity Catalog zu beginnen:
- Erstellen Sie Kataloge und Schemas, die Datenbankobjekte wie Tabellen und Volumes enthalten.
- Erstellen Sie verwaltete Speicherorte, um die verwalteten Tabellen und Volumes in diesen Katalogen und Schemas zu speichern.
- Gewähren Sie Benutzern Zugriff auf Kataloge, Schemas und Datenbankobjekte.
Arbeitsbereiche, die automatisch für Unity Catalog aktiviert sind, stellen einen Arbeitsbereichskatalog mit umfassenden Berechtigungen bereit, die allen Arbeitsbereichsbenutzern gewährt werden. Dieser Katalog ist ein praktischer Ausgangspunkt für das Testen von Unity Catalog.
Ausführliche Anweisungen zum Einrichten finden Sie unter Einrichten und Verwalten von Unity Catalog.
Beim Überprüfen von Azure Databricks Unity Catalog unterstützt Microsoft Purview Folgendes:
- Metastore
- Kataloge
- Schemata
- Tabellen einschließlich der Spalten
- Ansichten einschließlich der Spalten
Beim Einrichten der Überprüfung können Sie den gesamten Unity Catalog überprüfen oder die Überprüfung auf eine Teilmenge von Katalogen festlegen.
Konfigurieren der Data Map-Überprüfung zum Katalogen von Databricks Unity Catalog-Daten in Microsoft Purview
- Registrieren eines Azure Databricks-Arbeitsbereichs in Microsoft Purview
- Überprüfen des registrierten Azure Databricks-Arbeitsbereichs
- Geben Sie den Namen der Überprüfung ein.
- Auswählen des Unity-Katalogs als Extraktionsmethode
- Herstellen einer Verbindung über Integration Runtime (Azure Integration Runtime, Verwaltete VNet IR oder eine von Kubernetes unterstützte selbstgehostete Integration Runtime, die Sie erstellt haben)
- Wählen Sie Beim Erstellen von Anmeldeinformationen Zugriffstokenauthentifizierung aus. Weitere Informationen finden Sie unter Anmeldeinformationen für die Quellauthentifizierung in Microsoft Purview.
- Geben Sie den HTTP-Pfad des Databricks SQL Warehouse an, mit dem Microsoft Purview eine Verbindung herstellt und die Überprüfung durchführt.
- Wählen Sie auf der Seite Bereich Ihrer Überprüfung die Kataloge aus, die Sie überprüfen möchten.
- Wählen Sie einen Überprüfungsregelsatz für die Klassifizierung aus. Sie können zwischen dem Systemstandard und vorhandenen benutzerdefinierten Regelsätzen wählen oder einen neuen Regelsatz inline erstellen. Weitere Informationen finden Sie im Artikel Klassifizierung.
- Wählen Sie für Scantrigger aus, ob Sie einen Zeitplan einrichten oder die Überprüfung einmal ausführen möchten.
- Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.
- Zeigen Sie Ihre Überprüfungen und die Überprüfungsausführung an, um die Katalogisierung Ihrer Daten abzuschließen.
Nach der Überprüfung ist die Datenressource in Unity Catalog (UC) bei Microsoft Purview Unified Catalog Suche verfügbar. Weitere Informationen zum Verbinden und Verwalten von Azure Databricks Unity Catalog in Microsoft Purview finden Sie in diesem Dokument.
Wichtig
- Wählen Sie Beim Erstellen von Anmeldeinformationen Zugriffstokenauthentifizierung aus.
- Platzieren Sie das Zugriffstoken auf Ihrem gehosteten Azure-Key Vault, und verbinden Sie den Schlüsseltresor mit dem Verbindungs-Manager.
- Stellen Sie sicher, dass Sie den MSI-Lesezugriff (Geheimnis) des Produkts (Diensts) auf die Key Vault bereitstellen.
Einrichten einer Verbindung mit databricks UC für die Datenqualitätsüberprüfung
An diesem Punkt haben wir die gescannte Ressource für die Katalogisierung und Governance bereit. Ordnen Sie das gescannte Medienobjekt dem Datenprodukt in einer Governancedomäne zu. Fügen Sie auf der Registerkarte Datenqualität eine neue Azure SQL Datenbankverbindung hinzu: Rufen Sie den manuell eingegebenen Datenbanknamen ab.
Wählen Sie die Registerkarte Datenqualitäts-Governancedomäne >> Verwalten aus, um eine Verbindung zu erstellen.
Konfigurieren Sie die Verbindung auf der Verbindungsseite.
- Hinzufügen eines Verbindungsnamens und einer Beschreibung
- Auswählen des Quelltyps Azure Databricks
- Arbeitsbereichs-URL auswählen
- Auswählen des Unity-Katalogs als Extraktionsmethode
- HTTP-Pfad auswählen
- Auswählen des Unity-Katalognamens
- Schemanamen auswählen
- Tabellenname auswählen
- Authentifizierungsmethode auswählen – Zugriffstoken
- Hinzufügen eines Azure-Abonnements
- Key Vault-Verbindung
- Geheimnisname
- Version des geheimen Schlüssels
Testen der Verbindung
Wichtig
- Data Quality-Stewards benötigen schreibgeschützten Zugriff auf Azure Databrics Unity Catalog, um eine Data Quality-Verbindung einzurichten.
- VNET wird noch nicht unterstützt.
Profilerstellung und Datenqualitätsüberprüfung für Daten in Azure Databricks Unity Catalog-Datenbanken.
Nachdem die Verbindungseinrichtung erfolgreich abgeschlossen wurde, können Sie in Azure Databricks Unity Catalog-Datenbanken ein Profil erstellen, Regeln erstellen und anwenden und eine DQ-Überprüfung Ihrer Daten ausführen. Befolgen Sie die schritt-für-Schritt-Anleitung, die in den folgenden Dokumenten beschrieben wird:
- Konfigurieren und Ausführen der Datenprofilerstellung für Ihre Daten
- Konfigurieren und Ausführen der Datenqualitätsüberprüfung