Esplorare l'archiviazione e trovare i file di dati
Questo articolo è incentrato sull'individuazione e l'esplorazione di directory e file di dati gestiti con volumi del catalogo Unity, incluse le istruzioni basate sull'interfaccia utente per l'esplorazione dei volumi con Esplora cataloghi. Questo articolo fornisce anche esempi per l'esplorazione programmatica dei dati nell'archiviazione di oggetti cloud usando i percorsi del volume e gli URI cloud.
Databricks consiglia di usare volumi per gestire l'accesso ai dati nell'archiviazione di oggetti cloud. Per altre informazioni sulla connessione ai dati nell'archiviazione di oggetti cloud, vedere Connettersi alle origini dati.
Per una procedura dettagliata completa su come interagire con i file in tutte le posizioni, vedere Usare i file in Azure Databricks.
Importante
Durante la ricerca di file nell'interfaccia utente dell'area di lavoro, è possibile individuare i file di dati archiviati come file dell'area di lavoro. Databricks consiglia di usare i file dell'area di lavoro principalmente per il codice (ad esempio script e librerie), script init o file di configurazione. È consigliabile limitare i dati archiviati come file dell'area di lavoro a set di dati di piccole dimensioni che potrebbero essere usati per attività come i test durante lo sviluppo e il controllo di qualità. Si veda Che cosa sono i file di area di lavoro?.
Volumi e configurazioni di oggetti cloud legacy
Quando si usano volumi per gestire l'accesso ai dati nell'archiviazione di oggetti cloud, è possibile usare solo il percorso dei volumi per accedere ai dati e questi percorsi sono disponibili con tutte le risorse di calcolo abilitate per Unity Catalog. Non è possibile registrare i file di dati che supportano le tabelle del catalogo Unity usando volumi. Databricks consiglia di usare nomi di tabella anziché percorsi di file per interagire con i dati strutturati registrati come tabelle di Unity Catalog. Vedere Come funzionano i percorsi per i dati gestiti da Unity Catalog?
Se si usa un metodo legacy per configurare l'accesso ai dati nell'archiviazione oggetti cloud, Azure Databricks ripristina le autorizzazioni ACL di tabella legacy. Gli utenti che desiderano accedere ai dati usando URI cloud da SQL Warehouse o dalle risorse di calcolo configurate con la modalità di accesso condiviso richiedono l'autorizzazione ANY FILE
. Vedere Controllo di accesso alle tabelle metastore Hive (legacy).
Azure Databricks offre diverse API per elencare i file nell'archiviazione di oggetti cloud. La maggior parte degli esempi di questo articolo è incentrata sull'uso dei volumi. Per esempi sull'interazione con i dati nell'archivio oggetti configurato senza volumi, vedere Elencare i file con URI.
Esplorare i volumi
È possibile usare Esplora cataloghi per esplorare i dati nei volumi ed esaminare i dettagli di un volume. È possibile visualizzare solo i volumi di cui si dispone delle autorizzazioni per la lettura, in modo da poter eseguire query su tutti i dati individuati in questo modo.
È possibile usare SQL per esplorare i volumi e i relativi metadati. Per elencare i file nei volumi, è possibile usare SQL, il comando magic o le %fs
utilità di Databricks. Quando si interagisce con i dati nei volumi, si usa il percorso fornito da Unity Catalog, che ha sempre il formato seguente:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Visualizzare i volumi
SQL
Eseguire il comando seguente per visualizzare un elenco di volumi in un determinato schema.
SHOW VOLUMES IN catalog_name.schema_name;
Vedere SHOW VOLUMES.
Esplora cataloghi
Per visualizzare i volumi in uno schema specifico con Esplora cataloghi, eseguire le operazioni seguenti:
- Selezionare l'icona Catalogo.
- Selezionare un catalogo.
- Selezionare uno schema.
- Fare clic su Volumi per espandere tutti i volumi nello schema.
Nota
Se non viene registrato alcun volume in uno schema, l'opzione Volumi non viene visualizzata. Viene invece visualizzato un elenco di tabelle disponibili.
Visualizzare i dettagli del volume
SQL
Eseguire il comando seguente per descrivere un volume.
DESCRIBE VOLUME volume_name
Vedere DESCRIBE VOLUME.
Esplora cataloghi
Fare clic sul nome del volume e selezionare la scheda Dettagli per esaminare i dettagli del volume.
Visualizzare i file nei volumi
SQL
Eseguire il comando seguente per elencare i file in un volume.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Esplora cataloghi
Fare clic sul nome del volume e selezionare la scheda Dettagli per esaminare i dettagli del volume.
%fs
Eseguire il comando seguente per elencare i file in un volume.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Utilità di Databricks
Eseguire il comando seguente per elencare i file in un volume.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Elencare i file con URI
È possibile eseguire query sull'archiviazione di oggetti cloud configurata con metodi diversi dai volumi usando gli URI. È necessario essere connessi al calcolo con privilegi per accedere alla posizione cloud. L'autorizzazione ANY FILE
è necessaria per i warehouse SQL e le risorse di calcolo configurate con la modalità di accesso condiviso.
Nota
L'accesso URI all'archiviazione di oggetti configurato con volumi non è supportato. Non è possibile usare Esplora cataloghi per esaminare il contenuto dell'archivio oggetti non configurato con i volumi.
Gli esempi seguenti includono URI di esempio per i dati archiviati con Azure Data Lake Storage Gen2, S3 e GCS.
SQL
Eseguire il comando seguente per elencare i file nell'archiviazione di oggetti cloud.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Eseguire il comando seguente per elencare i file nell'archiviazione di oggetti cloud.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Utilità di Databricks
Eseguire il comando seguente per elencare i file nell'archiviazione di oggetti cloud.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")