Udostępnij za pośrednictwem


Eksplorowanie magazynu i znajdowanie plików danych

Ten artykuł koncentruje się na odnajdowaniu i eksplorowaniu katalogów i plików danych zarządzanych z użyciem Unity Catalogvolumes, w tym na instrukcjach opartych na interfejsie użytkownika do eksplorowania volumes przy użyciu narzędzia Catalog Explorer. Ten artykuł zawiera również przykłady programowej eksploracji danych w magazynie obiektów w chmurze przy użyciu ścieżek woluminów i identyfikatorów URI w chmurze.

Usługa Databricks zaleca używanie volumes do zarządzania dostępem do danych w magazynie obiektów w chmurze. Aby uzyskać więcej informacji na temat nawiązywania połączenia z danymi w magazynie obiektów w chmurze, zobacz Nawiązywanie połączenia ze źródłami danych.

Aby uzyskać pełny przewodnik dotyczący interakcji z plikami we wszystkich lokalizacjach, zobacz Praca z plikami w usłudze Azure Databricks.

Ważne

Podczas wyszukiwania plików w interfejsie użytkownika obszaru roboczego możesz odnaleźć pliki danych przechowywane jako pliki obszaru roboczego. Usługa Databricks zaleca używanie plików obszaru roboczego przede wszystkim dla kodu (takich jak skrypty i biblioteki), skrypty inicjowania lub pliki konfiguracji. Zaleca się, aby limit dane przechowywać jako pliki obszaru roboczego dla małych zestawów danych, które mogą być używane do zadań, takich jak testowanie podczas rozwoju i kontroli jakości. Zobacz Co to są pliki obszaru roboczego?.

Volumes a starsze konfiguracje obiektów w chmurze

Jeśli używasz volumes do zarządzania dostępem do danych w magazynie obiektów w chmurze, możesz uzyskać dostęp do danych tylko za pomocą ścieżki volumes, a te ścieżki są dostępne we wszystkich systemach obliczeniowych obsługujących Unity Catalog. Nie można zarejestrować plików danych wspierających Unity Catalogtables przy użyciu volumes. Databricks zaleca używanie nazw table zamiast ścieżek plików do pracy z ustrukturyzowanymi danymi zarejestrowanymi w Unity Catalogtables. Zobacz Jak działają ścieżki dla danych zarządzanych przez silnik Unity Catalog?.

Jeśli używasz starszej metody do konfigurowania dostępu do danych w magazynie obiektów w chmurze, usługa Azure Databricks przywraca starsze uprawnienia table ACL. Użytkownicy, którzy chcą uzyskiwać dostęp do danych przy użyciu identyfikatorów URI w chmurze z usługi SQL Warehouse lub zasobów obliczeniowych skonfigurowanych w trybie dostępu współdzielonego, wymagają ANY FILE uprawnienia. Zobacz magazyn metadanych Hive table kontrola dostępu (starsza wersja).

Usługa Azure Databricks udostępnia kilka interfejsów API do wyświetlania listy plików w magazynie obiektów w chmurze. Większość przykładów w tym artykule koncentruje się na używaniu volumes. Aby uzyskać przykłady interakcji z danymi w magazynie obiektów skonfigurowanym bez volumes, zobacz List plików z identyfikatorami URI.

Eksplorowanie volumes

Eksplorator Catalog umożliwia eksplorowanie danych w volumes i przeglądanie szczegółów woluminu. Możesz zobaczyć tylko volumes, do którego masz uprawnienia do odczytu, co pozwala na wykonywanie zapytań dotyczących wszystkich danych odkrytych w ten sposób.

Za pomocą języka SQL możesz eksplorować volumes i ich metadane. Aby list plików w volumes, możesz użyć języka SQL, magicznego polecenia %fs lub narzędzi usługi Databricks. Podczas interakcji z danymi w volumesnależy użyć ścieżki dostarczonej przez środowisko Unity Catalog, która zawsze ma następujący format:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Wyświetlanie volumes

SQL

Uruchom następujące polecenie, aby wyświetlić listvolumes w danym schema.

SHOW VOLUMES IN catalog_name.schema_name;

Zobacz SHOW VOLUMES.

Eksplorator Catalog

Aby wyświetlić volumes w danym schema za pomocą programu Catalog Explorer, wykonaj następujące czynności:

  1. Select ikonę CatalogCatalog.
  2. Select a catalog.
  3. Select a schema.
  4. Kliknij Volumes, aby rozwinąć wszystkie volumes w schema.

Uwaga

Jeśli żadna volumes nie jest zarejestrowana w schema, opcja Volumes nie jest wyświetlana. Zamiast tego widzisz list z dostępnych tables.

Zobacz szczegóły woluminu

SQL

Uruchom następujące polecenie, aby opisać wolumin.

DESCRIBE VOLUME volume_name

Zobacz DESCRIBE VOLUME.

Eksplorator Catalog

Kliknij nazwę woluminu i kartę Szczegóły , aby przejrzeć szczegóły woluminu.

Zobacz pliki w volumes

SQL

Uruchom następujące polecenie, aby list pliki w woluminie.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Eksplorator Catalog

Kliknij nazwę woluminu i kartę Szczegóły , aby przejrzeć szczegóły woluminu.

%fs

Uruchom następujące polecenie, aby list pliki w woluminie.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Narzędzia usługi Databricks

Uruchom następujące polecenie, aby wykonać list na plikach w woluminie.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

List plik z identyfikatorem URI

Możesz wykonywać zapytania dotyczące magazynu obiektów w chmurze skonfigurowanego przy użyciu metod innych niż volumes przy użyciu identyfikatorów URI. Aby uzyskać dostęp do lokalizacji w chmurze, musisz mieć połączenie z obliczeniami z uprawnieniami. Uprawnienie ANY FILE jest wymagane w magazynach SQL i obliczeniach skonfigurowanych w trybie dostępu współdzielonego.

Uwaga

Dostęp do magazynu obiektów poprzez identyfikator URI skonfigurowany za pomocą volumes nie jest obsługiwany. Nie można użyć eksploratora Catalog do przejrzenia zawartości magazynu obiektów, która nie została skonfigurowana przy użyciu volumes.

Poniższe przykłady obejmują przykładowe identyfikatory URI dla danych przechowywanych w usłudze Azure Data Lake Storage Gen2, S3 i GCS.

SQL

Uruchom następujące polecenie, aby wykonać list na plikach w chmurowym magazynie obiektów.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Uruchom następujące polecenie, aby list pliki w magazynie obiektów w chmurze.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Narzędzia usługi Databricks

Uruchom następujące polecenie, aby list pliki w magazynie obiektów w chmurze.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")