Connettersi ai progetti Google BigQuery e gestirli in Microsoft Purview
Questo articolo illustra come registrare i progetti Google BigQuery e come eseguire l'autenticazione e interagire con Google BigQuery in Microsoft Purview. Per altre informazioni su Microsoft Purview, vedere l'articolo introduttivo.
Funzionalità supportate
Estrazione dei metadati | Analisi completa | Analisi incrementale | Analisi con ambito | Classificazione | Applicazione di etichette | Criteri di accesso | Derivazione | Condivisione dati | Visualizzazione in diretta |
---|---|---|---|---|---|---|---|---|---|
Sì | Sì | No | Sì | No | No | No | Sì | No | No |
Durante l'analisi dell'origine Google BigQuery, Microsoft Purview supporta:
Estrazione di metadati tecnici, tra cui:
- Progetti
- Set di dati
- Tabelle che includono le colonne
- Viste incluse le colonne
Recupero della derivazione statica sulle relazioni tra gli asset tra tabelle e viste.
Quando si configura l'analisi, è possibile scegliere di analizzare un intero progetto Google BigQuery o di definire l'ambito dell'analisi in un subset di set di dati corrispondenti ai nomi o ai criteri di nome specificati.
Limitazioni note
- Attualmente, Microsoft Purview supporta solo l'analisi dei set di dati di Google BigQuery nella posizione multiarea degli Stati Uniti. Se il set di dati specificato si trova in un'altra posizione, ad esempio us-east1 o EU, si noterà che l'analisi viene completata ma non vengono visualizzati asset in Microsoft Purview.
- Quando l'oggetto viene eliminato dall'origine dati, attualmente l'analisi successiva non rimuove automaticamente l'asset corrispondente in Microsoft Purview.
Prerequisiti
Un account Azure con una sottoscrizione attiva. Creare un account gratuitamente.
Un account Microsoft Purview attivo.
Sono necessarie le autorizzazioni Amministratore origine dati e Lettore dati per registrare un'origine e gestirla nel portale di governance di Microsoft Purview. Per altre informazioni sulle autorizzazioni, vedere Controllo di accesso in Microsoft Purview.
Configurare il runtime di integrazione corretto per lo scenario:
-
Per usare un runtime di integrazione self-hosted:
- Seguire l'articolo per creare e configurare un runtime di integrazione self-hosted.
- Assicurarsi che JDK 11 sia installato nel computer in cui è installato il runtime di integrazione self-hosted. Riavviare il computer dopo aver installato il JDK per renderlo effettivo.
- Assicurarsi che Visual C++ Redistributable (versione Visual Studio 2012 Update 4 o versione successiva) sia installata nel computer in cui è in esecuzione il runtime di integrazione self-hosted. Se l'aggiornamento non è installato, scaricarlo ora.
- Scaricare e decomprimere il driver JDBC BigQuery nel computer in cui è in esecuzione il runtime di integrazione self-hosted. Annotare il percorso della cartella che verrà usato per configurare l'analisi.
-
Per usare un runtime di integrazione self-hosted supportato da kubernetes:
- Seguire l'articolo per creare e configurare un runtime di integrazione supportato da kubernetes.
- Scaricare e decomprimere il driver JDBC BigQuery nel computer in cui è in esecuzione il runtime di integrazione self-hosted. Annotare il percorso della cartella che verrà usato per configurare l'analisi.
Nota
Il driver deve essere accessibile dal runtime di integrazione self-hosted. Per impostazione predefinita, il runtime di integrazione self-hosted usa l'account del servizio locale "NT SERVICE\DIAHostService". Assicurarsi che disponga dell'autorizzazione "Lettura ed esecuzione" e "Elenca contenuto cartella" per la cartella del driver.
-
Per usare un runtime di integrazione self-hosted:
Autorizzazioni necessarie per l'analisi
L'account del servizio Google BigQuery usato per l'analisi deve avere entrambi i ruoli BigQuery Metadata Viewer e BigQuery Job User IAM nei progetti da analizzare. Queste autorizzazioni sono necessarie perché Microsoft Purview estrae i metadati leggendo le tabelle di sistema del database Google BigQuery (ad esempio INFORMATION_SCHEMA). E il driver JDBC di Google BigQuery sottostante crea un processo BigQuery quando deve leggere da queste tabelle di sistema.
Microsoft Purview usa il protocollo Oauth 2.0 per accedere al servizio Google BigQuery. Configurare le credenziali seguendo le istruzioni riportate nella sezione Creare ed eseguire l'analisi .
Registrazione
Questa sezione descrive come registrare un progetto Google BigQuery in Microsoft Purview usando il portale di governance di Microsoft Purview.
Passaggi per la registrazione
Aprire il portale di governance di Microsoft Purview:
- Passare direttamente all'account https://web.purview.azure.com Microsoft Purview e selezionarlo.
- Apertura del portale di Azure, ricerca e selezione dell'account Microsoft Purview. Selezione del pulsante del portale di governance di Microsoft Purview .
Selezionare Mappa dati nel riquadro di spostamento a sinistra.
Selezionare Registra.
In Registra origini selezionare Google BigQuery . Selezionare Continua.
Nella schermata Registra origini (Google BigQuery) eseguire le operazioni seguenti:
Immettere un nome in cui l'origine dati verrà elencata all'interno del catalogo.
Immettere projectID. Deve trattarsi di un ID progetto completo. Ad esempio, mydomain.com:myProject
Selezionare una raccolta dall'elenco.
Selezionare Registra.
Analisi
Seguire la procedura seguente per analizzare un progetto Google BigQuery per identificare automaticamente gli asset. Per altre informazioni sull'analisi in generale, vedere l'introduzione alle analisi e all'inserimento.
Creare ed eseguire l'analisi
Nel Centro gestione selezionare Runtime di integrazione. Assicurarsi che sia configurato un runtime di integrazione self-hosted. Se non è configurato, usare i passaggi indicati nei prerequisiti.
Passare a Origini.
Selezionare il progetto BigQuery registrato.
Selezionare + Nuova analisi.
Specificare i dettagli seguenti:
Nome: nome dell'analisi
Connettersi tramite il runtime di integrazione: selezionare il runtime di integrazione self-hosted configurato
Credenziali: durante la configurazione delle credenziali di BigQuery, assicurarsi di:
- Selezionare Autenticazione di base come metodo di autenticazione
- Specificare l'ID di posta elettronica dell'account del servizio nel campo Nome utente. Ad esempio,
xyz\@developer.gserviceaccount.com
- Seguire la procedura seguente per generare la chiave privata, copiare l'intero file di chiave JSON e archiviarlo come valore di un segreto Key Vault.
Per creare una nuova chiave privata dalla piattaforma cloud di Google:
- Nel menu di spostamento selezionare IAM & Amministrazione -> Account del servizio -> Selezionare un progetto ->
- Selezionare l'indirizzo di posta elettronica dell'account del servizio per cui si vuole creare una chiave.
- Selezionare la scheda Chiavi .
- Selezionare il menu a discesa Aggiungi chiave e quindi selezionare Crea nuova chiave.
- Scegliere il formato JSON.
Nota
Il contenuto della chiave privata viene salvato in un file temporaneo nella macchina virtuale durante l'esecuzione dei processi di analisi. Questo file temporaneo viene eliminato dopo il completamento delle analisi. In caso di errore di analisi, il sistema continuerà a riprovare fino all'esito positivo. Assicurarsi che l'accesso sia limitato in modo appropriato nella macchina virtuale in cui è in esecuzione SHIR.
Per altre informazioni sulle credenziali, vedere il collegamento qui.
Percorso driver: specificare il percorso del driver JDBC nel computer in cui è in esecuzione il runtime di integrazione self-host. Ad esempio:
D:\Drivers\GoogleBigQuery
.- Per il runtime di integrazione self-hosted in un computer locale:
D:\Drivers\GoogleBigQuery
. Si tratta del percorso della cartella JAR valida. Il valore deve essere un percorso di file assoluto valido e non contiene spazio. Assicurarsi che il driver sia accessibile dal runtime di integrazione self-hosted; Altre informazioni sono disponibili nella sezione prerequisiti. - Per il runtime di integrazione self-hosted supportato da Kubernetes:
./drivers/GoogleBigQuery
. Si tratta del percorso della cartella JAR valida. Il valore deve essere un percorso di file relativo valido. Fare riferimento alla documentazione per configurare un'analisi con driver esterni per caricare i driver in anticipo.
- Per il runtime di integrazione self-hosted in un computer locale:
Set di dati: specificare un elenco di set di dati BigQuery da importare. Ad esempio,
dataset1;dataset2
. Quando l'elenco è vuoto, vengono importati tutti i set di dati disponibili. I modelli di nome del set di dati accettabili possono essere nomi statici o contenere caratteri jolly %.Esempio:
A%;%B;%C%;D
- Iniziare con A o
- fine con B o
- contengono C o
- uguale a D
L'utilizzo di NOT e caratteri speciali non è accettabile.
Memoria massima disponibile: memoria massima (in GB) disponibile nella macchina virtuale da usare per l'analisi dei processi. Dipende dalle dimensioni del progetto Google BigQuery da analizzare.
Selezionare Test connessione.
Selezionare Continua.
Scegliere il trigger di analisi. È possibile configurare una pianificazione o eseguire l'analisi una sola volta.
Esaminare l'analisi e selezionare Salva ed esegui.
Visualizzare le analisi e le esecuzioni di analisi
Per visualizzare le analisi esistenti:
- Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
- Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
- Selezionare l'analisi con i risultati che si desidera visualizzare. Il riquadro mostra tutte le esecuzioni di analisi precedenti, insieme allo stato e alle metriche per ogni esecuzione dell'analisi.
- Selezionare l'ID di esecuzione per controllare i dettagli dell'esecuzione dell'analisi.
Gestire le analisi
Per modificare, annullare o eliminare un'analisi:
Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
Selezionare l'analisi da gestire. È quindi possibile eseguire automaticamente le seguenti azioni:
- Modificare l'analisi selezionando Modifica analisi.
- Annullare un'analisi in corso selezionando Annulla esecuzione analisi.
- Eliminare l'analisi selezionando Elimina analisi.
Nota
- L'eliminazione dell'analisi non elimina gli asset del catalogo creati dalle analisi precedenti.
Derivazione
Dopo aver eseguito l'analisi dell'origine Google BigQuery, è possibile esplorare il catalogo dati o cercare il catalogo dati per visualizzare i dettagli dell'asset.
Passare alla scheda asset -> derivazione. Se applicabile, è possibile visualizzare la relazione tra asset. Fare riferimento alla sezione relativa alle funzionalità supportate negli scenari di derivazione di Google BigQuery supportati. Per altre informazioni sulla derivazione in generale, vedere la guida dell'utente alla derivazione e alla derivazione dei dati.
Passaggi successivi
Dopo aver registrato l'origine, seguire le guide seguenti per altre informazioni su Microsoft Purview e i dati.