Dela via


Utforska lagring och hitta datafiler

Den här artikeln fokuserar på att identifiera och utforska kataloger och datafiler som hanteras med Unity Catalogvolumes, inklusive användargränssnittsbaserade instruktioner för att utforska volumes med Catalog Explorer. Den här artikeln innehåller också exempel på programmatisk utforskning av data i molnobjektlagring med hjälp av volymsökvägar och moln-URI:er.

Databricks rekommenderar att du använder volumes för att hantera åtkomst till data i molnobjektlagring. Mer information om hur du ansluter till data i molnobjektlagring finns i Ansluta till datakällor.

En fullständig genomgång av hur du interagerar med filer på alla platser finns i Arbeta med filer på Azure Databricks.

Viktigt!

När du söker efter filer i arbetsytans användargränssnitt kan du identifiera datafiler som lagras som arbetsytefiler. Databricks rekommenderar att du använder arbetsytefiler främst för kod (till exempel skript och bibliotek), init-skript eller konfigurationsfiler. Du bör helst limit data som lagras som arbetsytefiler till små dataset som kan användas för uppgifter som testning under utveckling och kvalitetssäkring. Se Vad är arbetsytefiler?.

Volumes jämfört med äldre molnobjektkonfigurationer

När du använder volumes för att hantera åtkomst till data i molnobjektlagring kan du bara använda den volumes sökvägen för att komma åt data, och de här sökvägarna är tillgängliga med all Unity-Catalog-aktiverad beräkning. Du kan inte registrera datafiler som stöder Unity Catalogtables med hjälp av volumes. Databricks rekommenderar att använda table namn istället för filsökvägar när man arbetar med strukturerade data registrerade som Unity Catalogtables. Se Hur fungerar sökvägar för data som hanteras av Unity Catalog?.

Om du använder en äldre metod för att konfigurera åtkomst till data i molnobjektlagring återgår Azure Databricks till äldre table ACL-behörigheter. Användare som vill komma åt data med hjälp av moln-URI:er från SQL-lager eller beräkning som konfigurerats med läget för delad åtkomst kräver behörigheten ANY FILE . Se Hive-metaarkiv table åtkomstkontroll (äldre).

Azure Databricks innehåller flera API:er för att visa filer i molnobjektlagring. De flesta exempel i den här artikeln fokuserar på att använda volumes. Exempel på hur du interagerar med data på objektlagring som konfigurerats utan volumesfinns i List filer med URI:er.

Utforska volumes

Du kan använda Catalog Explorer för att utforska data i volumes och granska information om en volym. Du kan bara se volumes som du har behörighet att läsa, så du kan köra frågor mot alla data som identifieras på det här sättet.

Du kan använda SQL för att utforska volumes och deras metadata. För att list filer i volumeskan du använda SQL, %fs magikommandot eller Databricks-verktygen. När du interagerar med data i volumesanvänder du sökvägen som tillhandahålls av Unity Catalog, som alltid har följande format:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Visa volumes

SQL

Kör följande kommando för att se en list av volumes i en specifik schema.

SHOW VOLUMES IN catalog_name.schema_name;

Se SHOW VOLUMES.

Catalog Utforskare

Om du vill visa volumes i en viss schema med Catalog Explorer gör du följande:

  1. Select ikonen CatalogCatalog.
  2. Select en catalog.
  3. Select en schema.
  4. Klicka på Volumes för att expandera alla volumes i schema.

Kommentar

Om inga volumes är registrerade i en schemavisas inte alternativet Volumes. I stället visas en list av tillgängliga tables.

Se volyminformation

SQL

Kör följande kommando för att beskriva en volym.

DESCRIBE VOLUME volume_name

Se DESCRIBE VOLUME.

Catalog Utforskaren

Klicka på volymnamnet och select fliken Information för att granska volyminformation.

Se filer i volumes

SQL

Kör följande kommando för att list filerna i en volym.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Catalog Explorer

Klicka på volymnamnet och select fliken Detaljer för att granska volyminformation.

%fs

Kör följande kommando för att list filerna i en volym.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Databricks-verktyg

Kör följande kommando för att list filerna i en volym.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

List filer med URI:er

Du kan köra frågor mot molnobjektlagring som konfigurerats med andra metoder än volumes med hjälp av URI:er. Du måste vara ansluten till beräkning med behörighet att komma åt molnplatsen. Behörigheten ANY FILE krävs på SQL-lager och beräkning som konfigurerats med läget för delad åtkomst.

Kommentar

URI-åtkomst till objektlagring som konfigurerats med volumes stöds inte. Du kan inte använda Catalog Explorer för att granska innehållet i objektlagring som inte har konfigurerats med volumes.

Följande exempel är exempel-URI:er för data som lagras med Azure Data Lake Storage Gen2, S3 och GCS.

SQL

Kör följande kommando för att list filer i molnobjektlagring.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Kör följande kommando för att list filer i molnobjektlagring.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Databricks-verktyg

Kör följande kommando för att list filer i molnobjektlagring.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")