Condividi tramite


Qualità dei dati per Microsoft Synapse serverless e data warehouse

Azure Synapse Analytics è un servizio di analisi aziendale che accelera il tempo necessario per ottenere informazioni dettagliate nei data warehouse e nei sistemi Big Data. Riunisce le migliori tecnologie SQL usate nel data warehousing aziendale, nelle tecnologie Apache Spark per i Big Data e in Azure Esplora dati per l'analisi dei log e delle serie temporali.

Azure Synapse è un servizio di analisi senza limiti che riunisce data warehousing aziendale e analisi dei Big Data. Offre la libertà di eseguire query sui dati in base alle condizioni, usando risorse serverless o dedicate su larga scala. Per altre informazioni su Azure Synapse consultare la documentazione di Fabric.

Esempio di area di lavoro synapse con un'istanza di Dedicated Synapse Data Warehouse Table EMPLOYEE (DWH) e un database serverless (SQL_ON_DEMAND) con tabella SynapseSalesDelta.

Screenshot dell'area di lavoro synapse Analytics.

Dopo l'analisi, gli asset sono disponibili in Microsoft Purview. Di seguito è riportato un esempio di tabella employee in un'istanza dedicata di Synapse Analytics.

Azure Synapse analytics Dedicato (Data Warehouse)

Configurare l'analisi della mappa dati

Per analizzare Azure Synapse Analytics Dedicated (Data Warehouse) seguire la documentazione e per concedere le autorizzazioni MI necessarie per l'istanza DWH dedicata, seguire la documentazione.

Screenshot della configurazione dell'analisi della mappa dati.

Dopo l'analisi, gli asset sono disponibili nel catalogo di Microsoft Purview. Di seguito è riportato un esempio di tabella employee in un'istanza dedicata di Synapse Analytics.

Screenshot del risultato dell'analisi della mappa dati.

Configurare la connessione al data warehouse dedicato di Synapse

A questo punto, l'asset analizzato è pronto per la catalogazione e la governance. Associare l'asset analizzato al prodotto dati in un sele di dominio di governance. Nella scheda Data Quality (Qualità dati) aggiungere una nuova connessione al database Azure SQL: ottenere il nome del database immesso manualmente.

  1. Selezionare la scheda Gestione dominio > di governance della qualità > dei dati per creare la connessione.

    Screenshot di come configurare la connessione.

  2. Configurare la connessione nella pagina di connessione.

    • Aggiungere il nome e la descrizione della connessione.
    • Selezionare il tipo di origine Azure Synapse Analytics.
    • Selezionare Sottoscrizione di Azure.
    • Selezionare Nome area di lavoro.
    • Selezionare Endpoint SQL dedicato.
    • Selezionare endpoint SQL serverless.
    • Selezionare Tipo di endpoint.
    • Selezionare Database.
    • Aggiungere MSI come credenziali.

    Screenshot di come configurare la connessione all'origine dati.

  3. Testare la connessione. Dopo aver configurato la connessione all'origine dati e aver eseguito correttamente il test, è possibile configurare ed eseguire analisi della profilatura dei dati e della qualità dei dati.

  4. Se l'origine dati Synapse si trova dietro un endpoint privato, è necessario abilitare la rete virtuale gestita. Seguire il documento su come configurare la rete virtuale gestita.

Importante

Gli amministratori di Data Quality devono accedere in sola lettura al data warehouse dedicato di Synapse per configurare la connessione alla qualità dei dati. Per la configurazione della rete virtuale gestita, non sarà possibile testare la connessione.

Profilatura e analisi della qualità dei dati per i dati nel data warehouse dedicato di Synapse

Dopo aver completato correttamente l'installazione della connessione, è possibile profilare, creare e applicare regole ed eseguire l'analisi DQ dei dati in synapse warehouse. Seguire le linee guida dettagliate descritte nei documenti seguenti:

Importante

  • Le prestazioni delle query e anche le esecuzioni riuscite dipendono dalla configurazione DW dei clienti per le istanze di database dedicate.
  • I rispettivi processi di valutazione DQ o qualsiasi altro processo DQ provocano una connessione al data warehouse dedicato e possono avere esito negativo se l'istanza è sottoposta a provisioning o ha esito negativo sui limiti di concorrenza, i clienti devono essere a conoscenza della configurazione DW. La concorrenza ha limiti molto rigidi per qualsiasi istanza nel tempo.
  • I limiti di concorrenza possono portare alla terminazione del processo. I limiti DW (ad esempio 1000 DW) forniscono la potenza per eseguire le query.
  • Il supporto per la rete virtuale è disponibile in anteprima con il supporto per il livello di disponibilità generale.

Azure Synapse Analytics Serverless

Configurare l'analisi della mappa dati

Per analizzare Azure Synapse Analytics Serverlessseguire la documentazione e per concedere le autorizzazioni MI necessarie per l'istanza DWH dedicata, seguire la documentazione. Dopo l'analisi, gli asset serverless sono disponibili nel catalogo Microsoft Purview.

Screenshot della configurazione dell'analisi della mappa dati per serverless.

Configurare la connessione a Synapse Serverless

A questo punto, l'asset analizzato è pronto per la catalogazione e la governance. Associare l'asset analizzato al prodotto dati in un sele di dominio di governance. In Data Quality aggiungere una nuova connessione al database Azure SQL: ottenere il nome del database immesso manualmente.

  1. Selezionare la schedaGestionedominio> di governance della qualità> dei dati per creare la connessione.

    Screenshot di come configurare la connessione.

  2. Configurare la connessione nella pagina di connessione.

    • Aggiungere il nome e la descrizione della connessione.
    • Selezionare il tipo di origine Azure Synapse Analytics.
    • Selezionare Sottoscrizione di Azure.
    • Selezionare Nome area di lavoro.
    • Selezionare Endpoint SQL dedicato.
    • Selezionare endpoint SQL serverless.
    • Selezionare Tipo di endpoint.
    • Selezionare Database.
    • Aggiungere MSI come credenziali.

    Screenshot di come configurare la connessione all'origine dati per synapse serverless.

  3. Testare la connessione. Dopo aver configurato la connessione all'origine dati e aver eseguito correttamente il test, è possibile configurare ed eseguire analisi della profilatura dei dati e della qualità dei dati.

  4. Se l'origine dati Synapse si trova dietro un endpoint privato, è necessario abilitare la rete virtuale gestita. Seguire il documento su come configurare la rete virtuale gestita.

Importante

  • Gli amministratori di Data Quality devono accedere in sola lettura al data warehouse dedicato di Synapse per configurare la connessione alla qualità dei dati.
  • Nella configurazione serverless di Synapse la tabella esterna punta ai dati in formato Delta archiviati in ADLS Gen2.
  • Il supporto della rete virtuale è disponibile in anteprima gated. Contattare il team di vendita di Purview per consentire l'elenco dei tenant per l'anteprima gated.
  • Synapse Connector rileva e supporta solo sql.azuresynapse.net. Se il nome completo (FQN) generato dall'analisi Mmap dati contiene database.windows.net, la connessione Synapse per l'analisi DQ avrà esito negativo.

Analisi della profilatura e della qualità dei dati (DQ) per i dati in synapse serverless

Dopo aver completato correttamente l'installazione della connessione, è possibile profilare, creare e applicare regole ed eseguire l'analisi DQ (Data Quality) dei dati nel synapse warehouse. Seguire le linee guida dettagliate descritte nei documenti seguenti:

Importante

  • Le valutazioni DQ, la profilatura eseguita in spark in background, i clienti avranno più connessioni in cui ogni nodo spark avrà una connessione SPID, quindi DWH potrebbe riscontrare limiti di query correnti se usato/pianificato oltre i limiti DW, errori risultanti. Per Azure Synapse tabella SQL serverless, tuttavia, non si applicano limiti di concorrenza di questo tipo. Dipende totalmente dalle ottimizzazioni parquet Delta serverless disponibili dai clienti nell'istanza di ADLS Gen2. È possibile considerare che il motore stia risonando da vicino Databricks Serverless DW entrambi operano su origini Lakehouse esterne, ad esempio tabelle di formato DELTA.

Documenti di riferimento