Configurare la connessione all'origine dati per connettere le origini dati per la valutazione della qualità dei dati
Le connessioni all'origine dati configurano l'autenticazione necessaria per profilare i dati per lo snapshot statistico o analizzare i dati alla ricerca di anomalie di qualità e punteggio dei dati.
La configurazione delle connessioni all'origine dati è il quarto passaggio del ciclo di vita della qualità dei dati per un asset di dati. I passaggi precedenti sono:
- Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati in Unified Catalog per usare tutte le funzionalità di qualità dei dati.
- Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
- Aggiungere l'asset di dati a un prodotto dati
Prerequisiti
- Per creare connessioni agli asset di dati, gli utenti devono avere il ruolo di amministratore della qualità dei dati.
- È necessario almeno l'accesso in lettura all'origine dati per cui si sta configurando la connessione.
Origini dati multicloud supportate
- Azure Data Lake Storage Gen2
- Tipi di file: Delta Parquet e Parquet
- database SQL di Azure
- Data estate dell'infrastruttura in OneLake, inclusi collegamenti e proprietà dei dati di mirroring. L'analisi della qualità dei dati è supportata solo per le tabelle delta e i file Parquet di Lakehouse.
- Data estate di mirroring: Cosmos DB, Snowflake, Azure SQL
- Data estate di collegamento: AWS S3, GCS, AdlsG2
- Azure Synapse serverless e data warehouse
- Catalogo Unity Azure Databricks
- Fiocco di neve
- Google Big Query (anteprima privata)
Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi Data Quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4.
Importante
Per accedere a queste origini, è necessario impostare le origini di Archiviazione di Azure in modo che dispongano di un firewall aperto, su Consenti servizi di Azure attendibili oppure per usare endpoint privati seguire le linee guida documentate nella guida alla configurazione della rete virtuale gestita con qualità dei dati.
Configurare la connessione all'origine dati
In Unified Catalog selezionare Gestione integrità e quindi Qualità dei dati.
Selezionare un dominio di governance dall'elenco.
Nell'elenco a discesa Gestisci selezionare Connections per aprire la pagina connessioni.
Selezionare Nuovo per creare una nuova connessione per i prodotti dati e gli asset di dati del dominio di governance.
Nel pannello a destra immettere le informazioni seguenti:
- Nome visualizzato
- Descrizione
Selezionare Tipo di origine e selezionare una delle origini dati.
A seconda dell'origine dati, immettere i dettagli di accesso.
Se la connessione di test ha esito positivo, inviare la configurazione della connessione per completare l'installazione della connessione.
Consiglio
È anche possibile creare una connessione alle risorse usando endpoint privati e una rete virtuale gestita Qualità dei dati di Microsoft Purview. Per altre informazioni, vedere l'articolo sulla rete virtuale gestita.
La procedura di configurazione della connessione varia per i connettori nativi. Controllare i passaggi di configurazione della connessione dai documenti dei connettori nativi per configurare la connessione per i connettori Azure Databricsks, Snowflake, GoogBigQuery e synapse.
Concedere le autorizzazioni di Microsoft Purview nell'origine
Ora che la connessione è stata creata, per poter analizzare le origini dati, l'identità gestita di Microsoft Purview avrà bisogno delle autorizzazioni per le origini dati:
Per analizzare Azure Data Lake Storage Gen2, il ruolo lettore di dati del BLOB di archiviazione deve essere assegnato all'identità gestita di Microsoft Purview. È possibile seguire i passaggi nella pagina di origine per assegnare autorizzazioni di identità gestite.
Per analizzare un database Azure SQL, assegnare db_datareader ruolo all'identità gestita di Microsoft Purview. È possibile seguire i passaggi nella pagina di origine per assegnare autorizzazioni di identità gestite.
Contenuto correlato
- Data Quality for Fabric Data Estate
- Data Quality per le origini dati con mirroring di Fabric
- Data Quality for Fabric shortcut data sources
- Data Quality per Azure Synapse serverless e data warehouse
- Data Quality for Azure Databricks Unity Catalog
- Data Quality per le origini dati Snowflake
- Qualità dei dati per Google Big Query
Passaggi successivi
- Configurare ed eseguire la profilatura dei dati per un asset nell'origine dati.
- Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.
- Configurare ed eseguire un'analisi della qualità dei dati in un prodotto dati per valutare la qualità di tutti gli asset supportati nel prodotto dati.
- Esaminare i risultati dell'analisi per valutare la qualità dei dati corrente del prodotto dati.