Registrare le origini dati in Azure Data Catalog
Importante
Azure Data Catalog è stato ritirato il 15 maggio 2024.
Per le funzionalità del catalogo dati, usare il servizio Microsoft Purview, che offre una governance dei dati unificata per l'intero patrimonio di dati.
Introduzione
Azure Data Catalog è un servizio cloud completamente gestito che funge da sistema di registrazione e di individuazione per le origini dati aziendali. In altre parole, Data Catalog permette agli utenti di trovare, comprendere e usare le origini dati e consente alle organizzazioni di ottenere maggior valore dai dati esistenti. Il primo passaggio per rendere individuabile un'origine dati in Data Catalog consiste nel registrare l'origine dati.
Registrare le origini dati
La registrazione è il processo di estrazione dei metadati da un'origine dati e di copia dei dati nel servizio Data Catalog. I dati rimangono nella posizione in cui risiedono attualmente e sotto il controllo degli amministratori e dei criteri del sistema corrente.
Per registrare un'origine dati, eseguire la procedura seguente:
- Nel portale di Azure Data Catalog avviare lo strumento di registrazione delle origini dati di Data Catalog.
- Accedere con l'account aziendale o dell'istituto di istruzione con le stesse credenziali di Microsoft Entra usate per accedere al portale.
- Selezionare l'origine dati che si vuole registrare.
Dopo la registrazione dell'origine dati, il catalogo tiene traccia della posizione e ne indicizza i metadati. Gli utenti possono cercare, esplorare e trovare l'origine dati e quindi usarne la posizione per connettersi tramite l'applicazione o lo strumento preferito.
Origini dati supportate
Per un elenco di origini dati attualmente supportate, vedere Riferimento per l'origine dati di Azure Data Catalog.
Metadati strutturali
Quando si registra un'origine dati, lo strumento di registrazione estrae le informazioni sulla struttura degli oggetti selezionati. Queste informazioni sono dette metadati strutturali.
Per tutti gli oggetti, questi metadati strutturali includono la posizione dell'oggetto, in modo che gli utenti che trovano i dati possano usare tali informazioni per connettersi all'oggetto negli strumenti client di propria scelta. Altri metadati strutturali includono il tipo e il nome dell'oggetto e il nome di colonna/attributo e il tipo di dati.
Metadati descrittivi
Oltre ai metadati strutturali di base estratti dall'origine dati, lo strumento di registrazione dell'origine dati estrae i metadati descrittivi. Per SQL Server Analysis Services e SQL Server Reporting Services questi metadati vengono estratti dalle proprietà Description esposte da questi servizi. Per SQL Server, vengono estratti i valori specificati tramite la proprietà estesa ms_description. Per Oracle Database, lo strumento di registrazione dell'origine dati estrae la colonna COMMENTS dalla vista ALL_TAB_COMMENTS.
Oltre ai metadati descrittivi estratti dall'origine dati, gli utenti possono immettere metadati descrittivi usando lo strumento di registrazione dell'origine dati. Gli utenti possono aggiungere tag e identificare esperti per gli oggetti in fase di registrazione. Tutti questi metadati descrittivi vengono copiati nel servizio Data Catalog con i metadati strutturali.
Includere le anteprime
Per impostazione predefinita, solo i metadati vengono estratti dalle origini dati e copiati nel servizio Data Catalog, ma un'origine dati spesso è più facile da comprendere quando è possibile visualizzare un esempio dei dati che contiene.
È possibile includere un'anteprima snapshot dei dati in ogni tabella e vista registrata, tramite lo strumento di registrazione dell'origine dati di Data Catalog. Se si sceglie di includere anteprime durante la registrazione, lo strumento di registrazione include un massimo di 20 record da ogni tabella e vista. Questo snapshot viene quindi copiato nel catalogo con i metadati strutturali e descrittivi.
Nota
Nell'anteprima delle tabelle di grandi dimensioni con un numero elevato di colonne potrebbero essere inclusi meno di 20 record.
Includere i profili dei dati
Esattamente come l'inclusione delle anteprime può offrire un contesto utile per gli utenti che cercano le origini dati in Data Catalog, includere un profilo dei dati può semplificare la comprensione delle origini dati trovate.
Usando lo strumento di registrazione dell'origine dati di Data Catalog, è possibile includere un profilo dei dati in ogni tabella e vista registrate. Se si sceglie di includere un profilo dei dati durante la registrazione, lo strumento di registrazione include statistiche aggregate sui dati in ogni tabella o vista, tra cui:
- Il numero di righe e le dimensioni dei dati nell'oggetto.
- La data dell'aggiornamento più recente dei dati e lo schema dell'oggetto.
- Il numero di record null e i valori distinti per colonne.
- I valori minimo, massimo, medio e deviazione standard per le colonne.
Queste statistiche vengono quindi copiate nel catalogo con i metadati strutturali e descrittivi.
Nota
Le colonne del testo e della data non includono le statistiche della media o della deviazione standard nel profilo dei dati.
Aggiornare le registrazioni
La registrazione di un'origine dati la rende individuabile in Data Catalog quando si usano i metadati e l'anteprima facoltativa estratti durante la registrazione. Nel caso in cui sia necessario aggiornare l'origine dati nel catalogo, ad esempio per modificare lo schema di un oggetto, per includere le tabelle inizialmente escluse o per aggiornare i dati inclusi nelle anteprime, è possibile eseguire di nuovo lo strumento di registrazione dell'origine dati.
La nuova registrazione di un'origine dati già registrata esegue un'operazione di unione "upsert": gli oggetti esistenti vengono aggiornati e i nuovi oggetti vengono creati. Tutti i metadati forniti dagli utenti tramite il portale di Data Catalog vengono mantenuti.
Riepilogo
La registrazione dell'origine dati in Data Catalog, poiché copia i metadati strutturali e descrittivi da un'origine dati al servizio catalogo, rende più facile trovare e comprendere i dati. Dopo avere registrato l'origine dati, è possibile annotarla, gestirla e trovarla tramite il portale di Data Catalog.