Sdílet prostřednictvím


Prozkoumání úložiště a vyhledání datových souborů

Tento článek se zaměřuje na zjišťování a zkoumání adresářů a datových souborů spravovaných pomocí svazků katalogu Unity, včetně pokynů založených na uživatelském rozhraní pro zkoumání svazků pomocí Průzkumníka katalogu. Tento článek obsahuje také příklady programového zkoumání dat v cloudovém úložišti objektů pomocí cest svazků a identifikátorů URI cloudu.

Databricks doporučuje používat svazky ke správě přístupu k datům v cloudovém úložišti objektů. Další informace o připojení k datům v cloudovém úložišti objektů najdete v tématu Připojení ke zdrojům dat.

Úplný návod, jak pracovat se soubory ve všech umístěních, najdete v tématu Práce se soubory v Azure Databricks.

Důležité

Při hledání souborů v uživatelském rozhraní pracovního prostoru můžete zjistit datové soubory uložené jako soubory pracovního prostoru. Databricks doporučuje používat soubory pracovního prostoru primárně pro kód (například skripty a knihovny), inicializační skripty nebo konfigurační soubory. V ideálním případě byste měli omezit data uložená jako soubory pracovního prostoru na malé datové sady, které se můžou používat pro úlohy, jako je testování během vývoje a kontroly kvality. Podívejte se, co jsou soubory pracovního prostoru?

Svazky vs. konfigurace starších cloudových objektů

Když ke správě přístupu k datům v cloudovém úložišti objektů používáte svazky, můžete pro přístup k datům použít pouze cestu ke svazkům a tyto cesty jsou k dispozici se všemi výpočetními prostředky s podporou katalogu Unity. Datové soubory, které zálohují tabulky Katalogu Unity, nemůžete registrovat pomocí svazků. Databricks doporučuje používat názvy tabulek místo cest k souborům pro interakci se strukturovanými daty registrovanými jako tabulky katalogu Unity. Podívejte se , jak fungují cesty pro data spravovaná katalogem Unity?.

Pokud ke konfiguraci přístupu k datům v cloudovém úložišti objektů použijete starší metodu, Azure Databricks se vrátí ke starším oprávněním seznamů ACL tabulek. Uživatelé, kteří chtějí získat přístup k datům pomocí cloudových identifikátorů URI ze služby SQL Warehouse nebo výpočetních prostředků nakonfigurovaných pomocí režimu sdíleného přístupu, vyžadují ANY FILE oprávnění. Viz Řízení přístupu k tabulce metastoru Hive (starší verze).

Azure Databricks poskytuje několik rozhraní API pro výpis souborů v cloudovém úložišti objektů. Většina příkladů v tomto článku se zaměřuje na používání svazků. Příklady interakce s daty v úložišti objektů nakonfigurovaných bez svazků najdete v tématu Výpis souborů s identifikátory URI.

Prozkoumání svazků

Průzkumníka katalogu můžete použít k prozkoumání dat ve svazcích a kontrole podrobností svazku. Vidíte jenom svazky, ke kterým máte oprávnění ke čtení, abyste mohli dotazovat všechna zjištěná data tímto způsobem.

Sql můžete použít k prozkoumání svazků a jejich metadat. Pokud chcete zobrazit seznam souborů ve svazcích, můžete použít sql, %fs příkaz magic nebo nástroje Databricks. Při interakci s daty ve svazcích použijete cestu poskytovanou katalogem Unity, která má vždy následující formát:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Zobrazení svazků

SQL

Spuštěním následujícího příkazu zobrazte seznam svazků v daném schématu.

SHOW VOLUMES IN catalog_name.schema_name;

Viz ZOBRAZENÍ SVAZKŮ.

Průzkumník katalogu

Pokud chcete zobrazit svazky v daném schématu pomocí Průzkumníka katalogu, postupujte takto:

  1. Ikona katalogu Vyberte ikonu Katalogu.
  2. Vyberte katalog.
  3. Vyberte schéma.
  4. Kliknutím na Svazky rozbalíte všechny svazky ve schématu.

Poznámka:

Pokud nejsou žádné svazky zaregistrované ve schématu, možnost Svazky se nezobrazí. Místo toho se zobrazí seznam dostupných tabulek.

Zobrazit podrobnosti o svazku

SQL

Spuštěním následujícího příkazu popište svazek.

DESCRIBE VOLUME volume_name

Viz POPIS SVAZKU.

Průzkumník katalogu

Klikněte na název svazku a výběrem karty Podrobnosti zkontrolujte podrobnosti svazku.

Zobrazení souborů ve svazcích

SQL

Spuštěním následujícího příkazu zobrazte seznam souborů ve svazku.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Průzkumník katalogu

Klikněte na název svazku a výběrem karty Podrobnosti zkontrolujte podrobnosti svazku.

%fs

Spuštěním následujícího příkazu zobrazte seznam souborů ve svazku.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Nástroje Databricks

Spuštěním následujícího příkazu zobrazte seznam souborů ve svazku.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Výpis souborů pomocí identifikátorů URI

Cloudové úložiště objektů nakonfigurované s jinými metodami než svazky můžete dotazovat pomocí identifikátorů URI. Abyste měli přístup ke cloudovému umístění, musíte být připojení k výpočetním prostředkům s oprávněními. Oprávnění ANY FILE se vyžaduje u sql Warehouse a výpočetních prostředků nakonfigurovaných pomocí režimu sdíleného přístupu.

Poznámka:

Přístup URI k úložišti objektů nakonfigurovaným se svazky se nepodporuje. Průzkumníka katalogu nelze použít ke kontrole obsahu úložiště objektů, které nejsou nakonfigurovány se svazky.

Následující příklady zahrnují ukázkové identifikátory URI pro data uložená v Azure Data Lake Storage Gen2, S3 a GCS.

SQL

Spuštěním následujícího příkazu zobrazte seznam souborů v cloudovém úložišti objektů.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Spuštěním následujícího příkazu zobrazte seznam souborů v cloudovém úložišti objektů.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Nástroje Databricks

Spuštěním následujícího příkazu zobrazte seznam souborů v cloudovém úložišti objektů.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")