Condividi tramite


Configurare la connessione all'origine dati per connettere le origini dati per la valutazione della qualità dei dati

Le connessioni all'origine dati configurano l'autenticazione necessaria per profilare i dati per lo snapshot statistico o analizzare i dati alla ricerca di anomalie di qualità e punteggio dei dati.

La configurazione delle connessioni all'origine dati è il quarto passaggio del ciclo di vita della qualità dei dati per un asset di dati. I passaggi precedenti sono:

  1. Assegnare agli utenti le autorizzazioni di amministratore della qualità dei dati in Unified Catalog per usare tutte le funzionalità di qualità dei dati.
  2. Registrare ed analizzare un'origine dati nel Microsoft Purview Data Map.
  3. Aggiungere l'asset di dati a un prodotto dati

Prerequisiti

  1. Per creare connessioni agli asset di dati, gli utenti devono avere il ruolo di amministratore della qualità dei dati.
  2. È necessario almeno l'accesso in lettura all'origine dati per cui si sta configurando la connessione.

Origini dati multicloud supportate

  • Azure Data Lake Storage Gen2
    • Tipi di file: Delta Parquet e Parquet
  • database SQL di Azure
  • Data estate dell'infrastruttura in OneLake, inclusi collegamenti e proprietà dei dati di mirroring. L'analisi della qualità dei dati è supportata solo per le tabelle delta e i file Parquet di Lakehouse.
    • Data estate di mirroring: Cosmos DB, Snowflake, Azure SQL
    • Data estate di collegamento: AWS S3, GCS, AdlsG2
  • Azure Synapse serverless e data warehouse
  • Catalogo Unity Azure Databricks
  • Fiocco di neve
  • Google Big Query (anteprima privata)

Attualmente, Microsoft Purview può eseguire analisi della qualità dei dati solo usando l'opzione di autenticazione Identità gestita . I servizi Data Quality vengono eseguiti in Apache Spark 3.4 e Delta Lake 2.4.

Importante

Per accedere a queste origini, è necessario impostare le origini di Archiviazione di Azure in modo che dispongano di un firewall aperto, su Consenti servizi di Azure attendibili oppure per usare endpoint privati seguire le linee guida documentate nella guida alla configurazione della rete virtuale gestita con qualità dei dati.

Configurare la connessione all'origine dati

  1. In Unified Catalog selezionare Gestione integrità e quindi Qualità dei dati.

  2. Selezionare un dominio di governance dall'elenco.

  3. Nell'elenco a discesa Gestisci selezionare Connections per aprire la pagina connessioni.

    Screenshot della pagina delle connessioni in Qualità dei dati di Microsoft Purview.

  4. Selezionare Nuovo per creare una nuova connessione per i prodotti dati e gli asset di dati del dominio di governance.

    Screenshot della pagina configura connessione in Qualità dei dati di Microsoft Purview.

  5. Nel pannello a destra immettere le informazioni seguenti:

    • Nome visualizzato
    • Descrizione
  6. Selezionare Tipo di origine e selezionare una delle origini dati.

  7. A seconda dell'origine dati, immettere i dettagli di accesso.

  8. Se la connessione di test ha esito positivo, inviare la configurazione della connessione per completare l'installazione della connessione.

Consiglio

È anche possibile creare una connessione alle risorse usando endpoint privati e una rete virtuale gestita Qualità dei dati di Microsoft Purview. Per altre informazioni, vedere l'articolo sulla rete virtuale gestita.

La procedura di configurazione della connessione varia per i connettori nativi. Controllare i passaggi di configurazione della connessione dai documenti dei connettori nativi per configurare la connessione per i connettori Azure Databricsks, Snowflake, GoogBigQuery e synapse.

Concedere le autorizzazioni di Microsoft Purview nell'origine

Ora che la connessione è stata creata, per poter analizzare le origini dati, l'identità gestita di Microsoft Purview avrà bisogno delle autorizzazioni per le origini dati:

Passaggi successivi

  1. Configurare ed eseguire la profilatura dei dati per un asset nell'origine dati.
  2. Configurare le regole di qualità dei dati in base ai risultati della profilatura e applicarle all'asset di dati.
  3. Configurare ed eseguire un'analisi della qualità dei dati in un prodotto dati per valutare la qualità di tutti gli asset supportati nel prodotto dati.
  4. Esaminare i risultati dell'analisi per valutare la qualità dei dati corrente del prodotto dati.