Datenqualität für Google BigQuery (Vorschau)
Unterstützte Funktionen
Beim Scannen der Google BigQuery-Quelle unterstützt Microsoft Purview Folgendes:
- Extrahieren von technischen Metadaten, einschließlich:
- Projekte und Datasets
- Tabellen einschließlich der Spalten
- Ansichten einschließlich der Spalten
- Abrufen der statischen Herkunft für Ressourcenbeziehungen zwischen Tabellen und Sichten.
Beim Einrichten der Überprüfung können Sie ein gesamtes Google BigQuery-Projekt überprüfen. Sie können die Überprüfung auch auf eine Teilmenge von Datasets festlegen, die den angegebenen Namen oder Namensmustern entsprechen.
Bekannte Einschränkungen
- Derzeit unterstützt Microsoft Purview nur das Scannen von Google BigQuery-Datasets an einem multiregionalen Standort in den USA. Wenn sich das angegebene Dataset an einem anderen Speicherort befindet, z. B. us-east1 oder EU, stellen Sie fest, dass die Überprüfung abgeschlossen ist, aber keine Ressourcen in Microsoft Purview angezeigt werden.
- Wenn das Objekt aus der Datenquelle gelöscht wird, wird das entsprechende Objekt in Microsoft Purview bei der nachfolgenden Überprüfung derzeit nicht automatisch entfernt.
Konfigurieren der Datamap-Überprüfung zum Katalogisieren von Google BigQuery-Daten in Microsoft Purview
Registrieren eines Google BigQuery-Projekts
- Öffnen Sie Microsoft Purview, und wählen Sie im linken Navigationsbereich Data Map aus.
- Wählen Sie Registrieren aus.
- Wählen Sie unter Quellen registrieren die Option Google BigQuery aus. Wählen Sie Weiter.
- Geben Sie einen Namen ein, mit dem die Datenquelle im Katalog aufgeführt wird.
- Geben Sie die ProjectID ein. Dies sollte eine vollqualifizierte Projekt-ID sein. Beispiel: mydomain.com: myProject
- Wählen Sie eine Sammlung aus der Liste aus.
- Wählen Sie Registrieren aus.
Einrichten einer Datamap-Überprüfung für das Google BigQuery-Projekt
- Stellen Sie sicher, dass eine selbstgehostete Integration Runtime eingerichtet ist. Wenn sie nicht eingerichtet ist, führen Sie die unter Voraussetzungen beschriebenen Schritte aus.
- Navigieren Sie zu Quellen.
- Wählen Sie das registrierte BigQuery-Projekt aus.
- Wählen Sie + Neuer Scan aus.
- Geben Sie die folgenden Details an:
- Name: Der Name der Überprüfung
- Herstellen einer Verbindung über Integration Runtime: Wählen Sie die konfigurierte selbstgehostete Integration Runtime aus.
- Anmeldeinformationen: Stellen Sie beim Konfigurieren von BigQuery-Anmeldeinformationen folgendes sicher:
- Wählen Sie Standardauthentifizierung als Authentifizierungsmethode aus.
- Geben Sie die E-Mail-ID des Dienstkontos im Feld Benutzername an. Beispiel: xyz@developer.gserviceaccount.com
- Führen Sie die folgenden Schritte aus, um den privaten Schlüssel zu generieren. Kopieren Sie die gesamte JSON-Schlüsseldatei, und speichern Sie sie als Wert eines Key Vault Geheimnisses.
- So erstellen Sie einen neuen privaten Schlüssel über die Cloudplattform von Google:
- Wählen Sie im Navigationsmenü IAM (Identity Access Management) und dann Admin --> Dienstkonten --> Projekt auswählen -- aus.>
- Wählen Sie die E-Mail-Adresse des Dienstkontos aus, für das Sie einen Schlüssel erstellen möchten.
- Wählen Sie die Registerkarte Schlüssel aus.
- Wählen Sie das Dropdownmenü Schlüssel hinzufügen und dann Neuen Schlüssel erstellen aus.
- Wählen Sie JSON-Format aus.
- Geben Sie den Pfad zum JDBC-Treiberspeicherort (Java Database Connectivity) auf Ihrem Computer an, auf dem die Self-Host Integration Runtime ausgeführt wird. Beispiel: D:\Drivers\GoogleBigQuery.
- Geben Sie eine Liste der zu importierenden BigQuery-Datasets an. Beispiel: dataset1; dataset2. Wenn die Liste leer ist, werden alle verfügbaren Datasets importiert.
- Maximal verfügbarer Arbeitsspeicher (in GB) auf Ihrem virtuellen Computer (virtueller Computer), der von Überprüfungsprozessen verwendet werden kann. Dies hängt von der Größe des zu scannenden Google BigQuery-Projekts ab.
- Wählen Sie Verbindung testen aus.
- Wählen Sie Weiter.
- Wählen Sie Ihren Scantrigger aus. Sie können einen Zeitplan einrichten oder die Überprüfung einmal ausführen.
- Überprüfen Sie Ihre Überprüfung, und wählen Sie Speichern und ausführen aus.
Nach der Überprüfung sind die Datenressourcen im Google BigQuery-Projekt auf der Unified Catalog Suche verfügbar. Weitere Informationen zum Verbinden und Verwalten von Google BigQuery in Microsoft Purview finden Sie in diesem Dokument.
Wichtig
Durch das Löschen Ihrer Überprüfung werden keine Katalogressourcen gelöscht, die aus vorherigen Überprüfungen erstellt wurden.
Einrichten einer Verbindung mit dem Google BigQuery-Projekt für die Datenqualitätsüberprüfung
An diesem Punkt haben wir die gescannte Ressource für die Katalogisierung und Governance bereit. Ordnen Sie die gescannten Ressourcen den Datenprodukten in einer Governancedomäne zu, um die Data Quality-Überprüfung einzurichten.
Wählen Sie die Registerkarte Datenqualitäts-Governancedomäne >>Verwalten aus, um eine Verbindung zu erstellen.
Konfigurieren der Verbindung
- Hinzufügen eines Verbindungsnamens und einer Beschreibung
- Auswählen des Quelltyps Google BigQuery
- Hinzufügen der Projekt-ID, des Datasetnamens und des Tabellennamens
- Wählen Sie Dienstkonto privater Schlüssel aus.
- Hinzufügen eines Azure-Abonnements
- Key Vault-Verbindung
- Geheimnisname
- Version des geheimen Schlüssels
Testen Sie die Verbindung, damit die Datenquellenverbindung erfolgreich konfiguriert wurde.
Wichtig
Data Quality-Stewards benötigen schreibgeschützten Zugriff auf Google BigQuery, um eine Datenqualitätsverbindung einzurichten. VNET und privater Endpunkt werden für die Google BigQuery-Datenquelle noch nicht für den Datenqualitätsüberprüfungsdienst unterstützt.
Profilerstellung und Datenqualitätsüberprüfung für Daten in Google BigQuery
Nachdem die Verbindungseinrichtung erfolgreich abgeschlossen wurde, können Sie in Google BigQuery Profile erstellen, Regeln erstellen und anwenden und eine Data Quality-Überprüfung Ihrer Daten ausführen. Befolgen Sie die schritt-für-Schritt-Anleitung, die in den folgenden Dokumenten beschrieben wird:
- Konfigurieren und Ausführen der Datenprofilerstellung für Ihre Daten
- Konfigurieren und Ausführen der Datenqualitätsüberprüfung