Qualità dei dati per i database del catalogo Unity di databricks
Per usare Unity Catalog, l'area di lavoro di Azure Databricks deve essere abilitata per Unity Catalog, ovvero l'area di lavoro è collegata a un metastore del catalogo Unity. Tutte le nuove aree di lavoro vengono abilitate automaticamente per Unity Catalog al momento della creazione, ma le aree di lavoro meno recenti potrebbero richiedere che un amministratore dell'account abiliti manualmente Unity Catalog. Indipendentemente dal fatto che l'area di lavoro sia stata abilitata automaticamente per Unity Catalog, sono necessari anche i passaggi seguenti per iniziare a usare Unity Catalog:
- Creare cataloghi e schemi per contenere oggetti di database come tabelle e volumi.
- Creare percorsi di archiviazione gestiti per archiviare le tabelle e i volumi gestiti in questi cataloghi e schemi.
- Concedere all'utente l'accesso a cataloghi, schemi e oggetti di database.
Le aree di lavoro abilitate automaticamente per Unity Catalog eseguono il provisioning di un catalogo di aree di lavoro con privilegi generali concessi a tutti gli utenti dell'area di lavoro. Questo catalogo è un punto di partenza pratico per provare Unity Catalog.
Per istruzioni dettagliate sulla configurazione, vedere Configurare e gestire il catalogo Unity.
Durante l'analisi del catalogo Unity di Azure Databricks, Microsoft Purview supporta:
- Metastore
- Cataloghi
- Schemi
- Tabelle che includono le colonne
- Viste incluse le colonne
Quando si configura l'analisi, è possibile scegliere di analizzare l'intero catalogo Unity o di definire l'ambito dell'analisi in un subset di cataloghi.
Configurare l'analisi della mappa dati per catalogare i dati del catalogo Di Databricks Unity in Microsoft Purview
- Registrare un'area di lavoro di Azure Databricks in Microsoft Purview
- Analizzare l'area di lavoro di Azure Databricks registrata
- Immettere il nome dell'analisi
- Selezionare il catalogo unity come metodo di estrazione
- Connettersi tramite il runtime di integrazione (runtime di integrazione di Azure, runtime di integrazione della rete virtuale gestita o un runtime di integrazione self-hosted supportato da Kubernetes creato)
- Selezionare Autenticazione token di accesso durante la creazione di credenziali. Per altre informazioni, vedere Credenziali per l'autenticazione di origine in Microsoft Purview.
- Specificare il percorso HTTP di SQL Warehouse di Databricks a cui Microsoft Purview si connetterà ed eseguirà l'analisi
- Nella pagina Ambito analisi selezionare i cataloghi da analizzare.
- Selezionare un set di regole di analisi per la classificazione. È possibile scegliere tra i set di regole personalizzati predefiniti del sistema o esistenti oppure creare un nuovo set di regole inline. Per altre informazioni, vedere l'articolo Classificazione.
- Per Esegui analisi, scegliere se configurare una pianificazione o eseguire l'analisi una sola volta.
- Esaminare l'analisi e selezionare Salva ed esegui.
- Visualizzare le analisi e l'esecuzione dell'analisi per completare la catalogazione dei dati.
Dopo l'analisi, l'asset di dati in Unity Catalog (UC) sarà disponibile in Microsoft Purview Unified Catalog ricerca. Per altre informazioni su come connettersi e gestire il catalogo Unity di Azure Databricks in Microsoft Purview, seguire questo documento.
Importante
- Selezionare Autenticazione token di accesso durante la creazione di credenziali.
- Inserire il token di accesso nel Key Vault di Azure ospitato e connettere l'insieme di credenziali delle chiavi alla gestione connessione.
- Assicurarsi di fornire al prodotto (servizio) l'accesso msi read (segreto) al Key Vault.
Configurare la connessione a databricks UC per l'analisi della qualità dei dati
A questo punto l'asset analizzato è pronto per la catalogazione e la governance. Associare l'asset analizzato al prodotto dati in un sele di dominio di governance. Nella scheda Data Quality (Qualità dati) aggiungere una nuova connessione al database Azure SQL: ottenere il nome del database immesso manualmente.
Selezionare la scheda Gestione dominio > di governance della qualità > dei dati per creare la connessione.
Configurare la connessione nella pagina di connessione.
- Aggiungere il nome e la descrizione della connessione
- selezionare il tipo di origine Azure Databricks
- selezionare l'URL dell'area di lavoro
- selezionare Catalogo Unity come metodo di estrazione
- selezionare percorso HTTP
- selezionare il nome del catalogo unity
- selezionare il nome dello schema
- selezionare il nome della tabella
- selezionare il metodo di autenticazione - Token di accesso
- Aggiungere una sottoscrizione di Azure
- Connessione dell'insieme di credenziali delle chiavi
- nome del segreto
- versione del segreto
Testare la connessione
Importante
- Gli amministratori della qualità dei dati devono accedere in sola lettura al catalogo Unity di Azure databrics per configurare la connessione alla qualità dei dati.
- La rete virtuale non è ancora supportata.
Analisi della profilatura e della qualità dei dati per i dati nei database del catalogo Unity di Azure Databricks.
Dopo aver completato correttamente l'installazione della connessione, è possibile profilare, creare e applicare regole ed eseguire l'analisi DQ dei dati nei database del catalogo Unity di Azure Databricks. Seguire le linee guida dettagliate descritte nei documenti seguenti:
- Come configurare ed eseguire la profilatura dei dati dei dati
- Come configurare ed eseguire l'analisi della qualità dei dati