Condividi tramite


Individuare i dati

Azure Databricks offre una suite di strumenti e prodotti che semplificano l'individuazione degli asset di dati accessibili tramite databricks Data Intelligence Platform. Questo articolo offre una panoramica di come individuare e visualizzare in anteprima i dati già configurati per l'accesso nell'area di lavoro.

Gli argomenti di questa sezione sono incentrati sull'esplorazione di oggetti dati e file di dati. Per informazioni sull'uso di asset come notebook, query SQL, librerie e modelli, vedere Esplorare l'area di lavoro.

Per indicazioni sulla generazione di statistiche di riepilogo per set di dati o altre attività associate all'analisi esplorativa dei dati (EDA), vedere Analisi esplorativa dei dati in Azure Databricks: Strumenti e tecniche.

How to discover data assets (Come individuare gli asset di dati)

Gli strumenti di individuazione dei dati in Azure Databricks rientrano nelle categorie generali seguenti:

  • Informazioni dettagliate, riepilogo e ricerca assistita dall'intelligenza artificiale.
  • Ricerca per parole chiave.
  • Esplorazione del catalogo tramite l'interfaccia utente.
  • Elenco a livello di codice ed esplorazione dei metadati.

Gli strumenti di individuazione dei dati sono ottimizzati per i dati regolati da Unity Catalog. Gli asset di dati che non sono stati registrati come oggetti Catalogo Unity potrebbero non essere individuabili usando alcuni di questi approcci.

Trovare i dati usando l'interfaccia utente

Catalog Explorer offre strumenti per l'esplorazione e la governance degli asset di dati. È possibile accedere a Esplora cataloghi usando l'icona del catalogo catalog nella barra laterale dell'area di lavoro. Vedere Che cos'è Esplora cataloghi?.

I notebook e l'editor di query SQL forniscono anche un navigatore del catalogo per esplorare gli oggetti di database. Fare clic sull'icona catalogo in queste interfacce per espandere o comprimere il navigatore del catalogo senza uscire dall'editor di codice.

Dopo aver individuato un set di dati di interesse, è possibile usare la scheda Insights per informazioni su come vengono usati i dati nell'area di lavoro. Vedere Visualizzare query frequenti e utenti di una tabella.

Esplorare i dati a livello di codice

È possibile usare il comando SHOW su tutti gli oggetti di database per individuare gli asset registrati nel catalogo Unity. Usare il comando LIST, il comando magic %fs o Le utilità di Databricks per elencare i file.

Vedere Esplorare l'archiviazione e trovare i file di dati ed Esplorare gli oggetti di database.

Esaminare i commenti dei dati

È possibile esaminare i commenti per ottenere informazioni sul contenuto dei set di dati disponibili nel lakehouse. I commenti possono essere impostati su oggetti dati, inclusi cataloghi, schemi, tabelle e colonne. È possibile visualizzare i commenti in Esplora cataloghi o usare il comando DESCRIBE per un oggetto .

Catalog Explorer può fornire commenti generati dall'intelligenza artificiale per le tabelle, facilitando ai proprietari dei dati la possibilità di fornire una panoramica dettagliata dei set di dati. Vedere Aggiungere commenti generati dall'intelligenza artificiale agli oggetti del catalogo Unity.

Gli utenti possono anche fornire commenti su tabelle e altri oggetti di database usando markdown, di cui viene eseguito il rendering in Esplora cataloghi. Vedere Aggiungere commenti ai dati e agli asset IA.

Cerca tabelle nel lakehouse

È possibile usare la barra di ricerca in Azure Databricks per trovare le tabelle registrate in Unity Catalog. È possibile eseguire una ricerca di parole chiave o usare la ricerca semantica per trovare set di dati o colonne correlate alla query di ricerca. La ricerca restituisce solo i risultati per le tabelle di cui si dispone dell'autorizzazione per visualizzare. La ricerca esamina i nomi delle tabelle, i nomi delle colonne, i commenti delle tabelle e i commenti delle colonne. Vedere Cercare oggetti dell'area di lavoro.