Connettersi al catalogo Unity di Azure Databricks e gestirlo in Microsoft Purview
Questo articolo illustra come registrare Azure Databricks e come eseguire l'autenticazione e interagire con il catalogo Unity di Azure Databricks in Microsoft Purview. Per altre informazioni su Microsoft Purview, vedere l'articolo introduttivo.
Funzionalità supportate
Estrazione dei metadati | Analisi completa | Analisi incrementale | Analisi con ambito | Classificazione | Applicazione di etichette | Criteri di accesso | Derivazione | Condivisione dati | Visualizzazione in diretta |
---|---|---|---|---|---|---|---|---|---|
Sì | Sì | No | Sì | Sì | Sì | No | Sì | No | No |
Durante l'analisi del catalogo Unity di Azure Databricks, Microsoft Purview supporta:
- Estrazione di metadati tecnici, tra cui:
- Metastore
- Cataloghi
- Schemi
- Tabelle che includono le colonne
- Viste incluse le colonne
- Recupero della derivazione delle relazioni tra gli asset tra tabelle, viste e colonne durante l'esecuzione del notebook.
Quando si configura l'analisi, è possibile scegliere di analizzare l'intero catalogo Unity o di definire l'ambito dell'analisi in un subset di cataloghi.
Nota
Questo connettore porta i metadati da Azure Databricks Unity Catalog. Per analizzare i metadati con ambito area di lavoro di Azure Databricks, fare riferimento al connettore Metastore Hive di Azure Databricks.
Limitazioni note
- Quando l'oggetto viene eliminato dall'origine dati, attualmente l'analisi successiva non rimuove automaticamente l'asset corrispondente in Microsoft Purview.
- Per altre informazioni su altre limitazioni correlate alla derivazione nativa di Azure Databricks, vedere la documentazione di Azure Databricks.
Prerequisiti
È necessario avere un account Azure con una sottoscrizione attiva. Creare un account gratuitamente.
È necessario disporre di un account Microsoft Purview attivo.
È necessaria una Key Vault di Azure e per concedere a Microsoft Purview le autorizzazioni per accedere ai segreti.
Sono necessarie le autorizzazioni Amministratore origine dati e Lettore dati per registrare un'origine e gestirla nel portale di governance di Microsoft Purview. Per altre informazioni sulle autorizzazioni, vedere Controllo di accesso in Microsoft Purview.
Per analizzare il catalogo Unity di Azure Databricks, Microsoft Purview si connette a un SQL Warehouse nell'area di lavoro e usa il token di accesso personale per l'autenticazione. È necessario avere un'area di lavoro di Azure Databricks abilitata e collegata al metastore da analizzare. Nell'area di lavoro di Azure Databricks:
Generare un token di accesso personale e archiviarlo come segreto in Azure Key Vault.
Per tutti gli oggetti che si desidera inserire in Microsoft Purview, l'utente deve avere almeno il privilegio SELECT per tabelle/viste, USE CATALOG nel catalogo dell'oggetto e USE SCHEMA nello schema dell'oggetto.
Per analizzare tutti gli oggetti in un metastore del catalogo Unity, usare un utente con ruolo di amministratore del metastore. Per altre informazioni, vedere Gestire i privilegi in Unity Catalog e i privilegi del catalogo Unity e gli oggetti a protezione diretta.
Per la classificazione, l'utente deve anche avere il privilegio SELECT nelle tabelle/viste per recuperare i dati di esempio.
Creare un'istanza di SQL Warehouse. Se applicabile, è possibile usare anche lo starter warehouse creato automaticamente.
Prendere nota del percorso HTTP. È possibile trovarlo nell'area di lavoro di Azure Databricks -> SQL Warehouses -> il warehouse -> Dettagli connessione -> Percorso HTTP.
Assicurarsi che l'utente disponga dell'autorizzazione Can Use per connettersi al warehouse SQL di Azure Databricks. Altre informazioni sul controllo di accesso di SQL Warehouse.
Per recuperare la derivazione da Azure Databricks usando Microsoft Purview, è necessario che siano soddisfatti i prerequisiti seguenti:
Abilitare lo schema di sistema: lo schema di sistema system.access deve essere abilitato nel catalogo unity. Ciò è necessario perché le informazioni sulla derivazione vengono archiviate nelle tabelle di sistema e l'abilitazione di questo schema consente l'accesso a tali tabelle. Altre informazioni sul monitoraggio dell'utilizzo con le tabelle di sistema.
Privilegi utente: l'account utente usato per l'analisi deve disporre di privilegi SELECT nelle tabelle di sistema seguenti:
system.access.table_lineage
system.access.column_lineage
Queste autorizzazioni sono necessarie perché i dati di derivazione vengono letti direttamente dalle tabelle di sistema e senza l'accesso necessario, Microsoft Purview non può recuperare le informazioni di derivazione.
Se l'area di lavoro di Azure Databricks non consente l'accesso dalla rete pubblica o se l'account Microsoft Purview non abilita l'accesso da tutte le reti, è possibile usare il Rete virtuale Integration Runtime gestito o un runtime di integrazione self-hosted supportato da kubernetes per l'analisi. È possibile configurare un endpoint privato gestito per Azure Databricks in base alle esigenze per stabilire la connettività privata.
Registrazione
Questa sezione descrive come registrare un'area di lavoro di Azure Databricks in Microsoft Purview usando il portale di governance di Microsoft Purview.
Passare all'account Microsoft Purview.
Selezionare Mappa dati nel riquadro sinistro.
Selezionare Registra.
In Registra origini selezionare Azure Databricks>Continue.
Nella schermata Registra origini (Azure Databricks) eseguire le operazioni seguenti:
In Nome immettere un nome che verrà visualizzato da Microsoft Purview come origine dati.
Per la sottoscrizione di Azure e il nome dell'area di lavoro databricks selezionare la sottoscrizione e l'area di lavoro da analizzare dall'elenco a discesa. L'URL dell'area di lavoro di Databricks viene popolato automaticamente.
Selezionare una raccolta dall'elenco.
Seleziona Fine.
Analisi
Consiglio
Per risolvere eventuali problemi relativi all'analisi:
- Verificare di aver seguito tutti i prerequisiti.
- Esaminare la documentazione sulla risoluzione dei problemi di analisi.
Usare la procedura seguente per analizzare Azure Databricks per identificare automaticamente gli asset. Per altre informazioni sull'analisi in generale, vedere Analisi e inserimento in Microsoft Purview.
Passare a Origini.
Selezionare Azure Databricks registrato.
Selezionare + Nuova analisi.
Quando richiesto, specificare i dettagli seguenti:
Nome: immettere un nome per l'analisi.
Metodo di estrazione: Indicare di estrarre i metadati dal metastore Hive o dal catalogo Unity. Selezionare Catalogo Unity.
Connettersi tramite il runtime di integrazione: scegliere il runtime di integrazione predefinito di Azure, il runtime di integrazione della rete virtuale gestita o un runtime di integrazione self-hosted supportato da Kubernetes creato.
Credenziali: selezionare le credenziali per connettersi all'origine dati. Assicurarsi di:
- Selezionare Autenticazione token di accesso durante la creazione di credenziali.
- Specificare il nome del segreto del token di accesso personale creato in Prerequisiti nella casella appropriata.
Per altre informazioni, vedere Credenziali per l'autenticazione di origine in Microsoft Purview.
Percorso HTTP: Specificare il percorso HTTP di SQL Warehouse di Databricks a cui Microsoft Purview si connetterà ed eseguirà l'analisi, ad esempio
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
. È possibile trovarlo nell'area di lavoro di Azure Databricks -> SQL Warehouses -> il warehouse -> Dettagli connessione -> Percorso HTTP.Estrazione derivazione: Attivare o disattivare l'estrazione della derivazione su Sì per recuperare la derivazione degli asset analizzati.
Selezionare Test connessione per convalidare le impostazioni.
Selezionare Continua.
Nella pagina Ambito analisi selezionare i cataloghi da analizzare.
Selezionare un set di regole di analisi per la classificazione. È possibile scegliere tra i set di regole personalizzati predefiniti del sistema o esistenti oppure creare un nuovo set di regole inline. Per altre informazioni, vedere l'articolo Classificazione .
Per Esegui analisi, scegliere se configurare una pianificazione o eseguire l'analisi una sola volta.
Esaminare l'analisi e selezionare Salva ed esegui.
Al termine dell'analisi, vedere come esplorare e cercare gli asset.
Visualizzare le analisi e le esecuzioni di analisi
Per visualizzare le analisi esistenti:
- Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
- Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
- Selezionare l'analisi con i risultati che si desidera visualizzare. Il riquadro mostra tutte le esecuzioni di analisi precedenti, insieme allo stato e alle metriche per ogni esecuzione dell'analisi.
- Selezionare l'ID di esecuzione per controllare i dettagli dell'esecuzione dell'analisi.
Gestire le analisi
Per modificare, annullare o eliminare un'analisi:
Passare al portale di Microsoft Purview. Nel riquadro sinistro selezionare Mappa dati.
Selezionare l'origine dati. È possibile visualizzare un elenco di analisi esistenti nell'origine dati in Analisi recenti oppure è possibile visualizzare tutte le analisi nella scheda Analisi .
Selezionare l'analisi da gestire. È quindi possibile eseguire automaticamente le seguenti azioni:
- Modificare l'analisi selezionando Modifica analisi.
- Annullare un'analisi in corso selezionando Annulla esecuzione analisi.
- Eliminare l'analisi selezionando Elimina analisi.
Nota
- L'eliminazione dell'analisi non elimina gli asset del catalogo creati dalle analisi precedenti.
Esplorare e cercare gli asset
Dopo aver eseguito l'analisi di Azure Databricks, è possibile esplorare il catalogo dati o cercare il catalogo dati per visualizzare i dettagli e la derivazione degli asset.
Durante l'esplorazione in base ai tipi di origine, vengono visualizzate due voci rispettivamente per Azure Databricks Unity Catalog e Azure Databricks . Il primo contiene gli artefatti del catalogo Unity, inclusi il metastore e i relativi cataloghi,schemi/tabelle/viste, mentre il secondo contiene gli artefatti dell'area di lavoro.
Dall'asset dell'area di lavoro di Azure Databricks è possibile trovare anche il catalogo Unity associato nella scheda Proprietà, invertito.
Derivazione
Quando si esplora un particolare asset di Azure Databricks, è possibile visualizzare i notebook che hanno acquisito la derivazione.
Passare alla scheda asset -> derivazione. Se applicabile, è possibile visualizzare la derivazione nell'asset notebook o nella tabella/visualizzazione di Azure Databricks.
Fare riferimento alla sezione relativa alle funzionalità supportate negli scenari di derivazione del catalogo Unity di Databricks supportati. Per altre informazioni sulla derivazione in generale, vedere la guida dell'utente alla derivazione e alla derivazione dei dati.
Domande frequenti (FAQ)
La derivazione a livello di colonna da Unity Catalog viene acquisita da Microsoft Purview?
Microsoft Purview è in grado di acquisire la derivazione sia a livello di tabella/vista del catalogo unity che a livello di colonna.
Ho appena eseguito il mio notebook, ma Microsoft Purview non ha recuperato la derivazione. Cosa sta succedendo?
Databricks potrebbe subire un leggero ritardo (alcuni minuti) per aggiornare le informazioni sulla derivazione nelle tabelle di sistema dopo l'esecuzione del notebook. Microsoft Purview sarà in grado di recuperare la derivazione dopo l'aggiornamento delle tabelle di sistema.
Passaggi successivi
Ora che l'origine è registrata, usare le guide seguenti per altre informazioni su Microsoft Purview e i dati: