Prozkoumání úložiště a vyhledání datových souborů
Tento článek se zaměřuje na zjišťování a zkoumání adresářů a datových souborů spravovaných pomocí svazků katalogu Unity, včetně pokynů založených na uživatelském rozhraní pro zkoumání svazků pomocí Průzkumníka katalogu. Tento článek obsahuje také příklady programového zkoumání dat v cloudovém úložišti objektů pomocí cest svazků a identifikátorů URI cloudu.
Databricks doporučuje používat svazky ke správě přístupu k datům v cloudovém úložišti objektů. Další informace o připojení k datům v cloudovém úložišti objektů najdete v tématu Připojení ke zdrojům dat.
Úplný návod, jak pracovat se soubory ve všech umístěních, najdete v tématu Práce se soubory v Azure Databricks.
Důležité
Při hledání souborů v uživatelském rozhraní pracovního prostoru můžete zjistit datové soubory uložené jako soubory pracovního prostoru. Databricks doporučuje používat soubory pracovního prostoru primárně pro kód (například skripty a knihovny), inicializační skripty nebo konfigurační soubory. V ideálním případě byste měli omezit data uložená jako soubory pracovního prostoru na malé datové sady, které se můžou používat pro úlohy, jako je testování během vývoje a kontroly kvality. Podívejte se, co jsou soubory pracovního prostoru?
Svazky vs. konfigurace starších cloudových objektů
Když ke správě přístupu k datům v cloudovém úložišti objektů používáte svazky, můžete pro přístup k datům použít pouze cestu ke svazkům a tyto cesty jsou k dispozici se všemi výpočetními prostředky s podporou katalogu Unity. Datové soubory, které zálohují tabulky Katalogu Unity, nemůžete registrovat pomocí svazků. Databricks doporučuje používat názvy tabulek místo cest k souborům pro interakci se strukturovanými daty registrovanými jako tabulky katalogu Unity. Podívejte se , jak fungují cesty pro data spravovaná katalogem Unity?.
Pokud ke konfiguraci přístupu k datům v cloudovém úložišti objektů použijete starší metodu, Azure Databricks se vrátí ke starším oprávněním seznamů ACL tabulek. Uživatelé, kteří chtějí získat přístup k datům pomocí cloudových identifikátorů URI ze služby SQL Warehouse nebo výpočetních prostředků nakonfigurovaných pomocí režimu sdíleného přístupu, vyžadují ANY FILE
oprávnění. Viz Řízení přístupu k tabulce metastoru Hive (starší verze).
Azure Databricks poskytuje několik rozhraní API pro výpis souborů v cloudovém úložišti objektů. Většina příkladů v tomto článku se zaměřuje na používání svazků. Příklady interakce s daty v úložišti objektů nakonfigurovaných bez svazků najdete v tématu Výpis souborů s identifikátory URI.
Prozkoumání svazků
Průzkumníka katalogu můžete použít k prozkoumání dat ve svazcích a kontrole podrobností svazku. Vidíte jenom svazky, ke kterým máte oprávnění ke čtení, abyste mohli dotazovat všechna zjištěná data tímto způsobem.
Sql můžete použít k prozkoumání svazků a jejich metadat. Pokud chcete zobrazit seznam souborů ve svazcích, můžete použít sql, %fs
příkaz magic nebo nástroje Databricks. Při interakci s daty ve svazcích použijete cestu poskytovanou katalogem Unity, která má vždy následující formát:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Zobrazení svazků
SQL
Spuštěním následujícího příkazu zobrazte seznam svazků v daném schématu.
SHOW VOLUMES IN catalog_name.schema_name;
Viz ZOBRAZENÍ SVAZKŮ.
Průzkumník katalogu
Pokud chcete zobrazit svazky v daném schématu pomocí Průzkumníka katalogu, postupujte takto:
- Vyberte ikonu Katalogu.
- Vyberte katalog.
- Vyberte schéma.
- Kliknutím na Svazky rozbalíte všechny svazky ve schématu.
Poznámka:
Pokud nejsou žádné svazky zaregistrované ve schématu, možnost Svazky se nezobrazí. Místo toho se zobrazí seznam dostupných tabulek.
Zobrazit podrobnosti o svazku
SQL
Spuštěním následujícího příkazu popište svazek.
DESCRIBE VOLUME volume_name
Viz POPIS SVAZKU.
Průzkumník katalogu
Klikněte na název svazku a výběrem karty Podrobnosti zkontrolujte podrobnosti svazku.
Zobrazení souborů ve svazcích
SQL
Spuštěním následujícího příkazu zobrazte seznam souborů ve svazku.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Průzkumník katalogu
Klikněte na název svazku a výběrem karty Podrobnosti zkontrolujte podrobnosti svazku.
%fs
Spuštěním následujícího příkazu zobrazte seznam souborů ve svazku.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Nástroje Databricks
Spuštěním následujícího příkazu zobrazte seznam souborů ve svazku.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Výpis souborů pomocí identifikátorů URI
Cloudové úložiště objektů nakonfigurované s jinými metodami než svazky můžete dotazovat pomocí identifikátorů URI. Abyste měli přístup ke cloudovému umístění, musíte být připojení k výpočetním prostředkům s oprávněními. Oprávnění ANY FILE
se vyžaduje u sql Warehouse a výpočetních prostředků nakonfigurovaných pomocí režimu sdíleného přístupu.
Poznámka:
Přístup URI k úložišti objektů nakonfigurovaným se svazky se nepodporuje. Průzkumníka katalogu nelze použít ke kontrole obsahu úložiště objektů, které nejsou nakonfigurovány se svazky.
Následující příklady zahrnují ukázkové identifikátory URI pro data uložená v Azure Data Lake Storage Gen2, S3 a GCS.
SQL
Spuštěním následujícího příkazu zobrazte seznam souborů v cloudovém úložišti objektů.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Spuštěním následujícího příkazu zobrazte seznam souborů v cloudovém úložišti objektů.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Nástroje Databricks
Spuštěním následujícího příkazu zobrazte seznam souborů v cloudovém úložišti objektů.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")