Udostępnij za pośrednictwem


Eksplorowanie magazynu i znajdowanie plików danych

Ten artykuł koncentruje się na odnajdowaniu i eksplorowaniu katalogów i plików danych zarządzanych za pomocą woluminów wykazu aparatu Unity, w tym instrukcji opartych na interfejsie użytkownika dotyczących eksplorowania woluminów za pomocą Eksploratora wykazu. Ten artykuł zawiera również przykłady programowej eksploracji danych w magazynie obiektów w chmurze przy użyciu ścieżek woluminów i identyfikatorów URI w chmurze.

Usługa Databricks zaleca używanie woluminów do zarządzania dostępem do danych w magazynie obiektów w chmurze. Aby uzyskać więcej informacji na temat nawiązywania połączenia z danymi w magazynie obiektów w chmurze, zobacz Nawiązywanie połączenia ze źródłami danych.

Aby uzyskać pełny przewodnik dotyczący interakcji z plikami we wszystkich lokalizacjach, zobacz Praca z plikami w usłudze Azure Databricks.

Ważne

Podczas wyszukiwania plików w interfejsie użytkownika obszaru roboczego możesz odnaleźć pliki danych przechowywane jako pliki obszaru roboczego. Usługa Databricks zaleca używanie plików obszaru roboczego przede wszystkim dla kodu (takich jak skrypty i biblioteki), skrypty inicjowania lub pliki konfiguracji. Najlepiej ograniczyć dane przechowywane jako pliki obszaru roboczego do małych zestawów danych, które mogą być używane do zadań, takich jak testowanie podczas programowania i kontroli jakości. Zobacz Co to są pliki obszaru roboczego?.

Woluminy a starsze konfiguracje obiektów w chmurze

Gdy używasz woluminów do zarządzania dostępem do danych w magazynie obiektów w chmurze, możesz użyć ścieżki woluminów tylko do uzyskiwania dostępu do danych, a te ścieżki są dostępne we wszystkich obliczeniach z obsługą wykazu aparatu Unity. Nie można zarejestrować plików danych kopii zapasowych tabel wykazu aparatu Unity przy użyciu woluminów. Usługa Databricks zaleca używanie nazw tabel zamiast ścieżek plików do interakcji ze strukturą danych zarejestrowanych jako tabele wykazu aparatu Unity. Zobacz Jak działają ścieżki dla danych zarządzanych przez wykaz aparatu Unity?.

Jeśli używasz starszej metody do konfigurowania dostępu do danych w magazynie obiektów w chmurze, usługa Azure Databricks przywraca starsze uprawnienia list ACL tabeli. Użytkownicy, którzy chcą uzyskiwać dostęp do danych przy użyciu identyfikatorów URI w chmurze z usługi SQL Warehouse lub zasobów obliczeniowych skonfigurowanych w trybie dostępu współdzielonego, wymagają ANY FILE uprawnienia. Zobacz Kontrola dostępu do tabel magazynu metadanych Hive (starsza wersja).

Usługa Azure Databricks udostępnia kilka interfejsów API do wyświetlania listy plików w magazynie obiektów w chmurze. Większość przykładów w tym artykule koncentruje się na używaniu woluminów. Aby zapoznać się z przykładami dotyczącymi interakcji z danymi w magazynie obiektów skonfigurowanym bez woluminów, zobacz Wyświetlanie listy plików z identyfikatorami URI.

Eksplorowanie woluminów

Eksplorator wykazu umożliwia eksplorowanie danych w woluminach i przeglądanie szczegółów woluminu. Możesz zobaczyć tylko woluminy, do których masz uprawnienia do odczytu, dzięki czemu można wykonywać zapytania dotyczące wszystkich odnalezionych danych w ten sposób.

Za pomocą języka SQL można eksplorować woluminy i ich metadane. Aby wyświetlić listę plików w woluminach, możesz użyć programu SQL, %fs polecenia magic lub narzędzi usługi Databricks. Podczas interakcji z danymi w woluminach należy użyć ścieżki dostarczonej przez wykaz aparatu Unity, która zawsze ma następujący format:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Wyświetlanie woluminów

SQL

Uruchom następujące polecenie, aby wyświetlić listę woluminów w danym schemacie.

SHOW VOLUMES IN catalog_name.schema_name;

Zobacz SHOW VOLUMES (POKAŻ WOLUMINY).

Eksplorator wykazu

Aby wyświetlić woluminy w danym schemacie za pomocą Eksploratora wykazu, wykonaj następujące czynności:

  1. Wybierz ikonę Ikona wykazu Wykaz.
  2. Wybierz wykaz.
  3. Wybierz schemat.
  4. Kliknij pozycję Woluminy , aby rozwinąć wszystkie woluminy w schemacie.

Uwaga

Jeśli żadne woluminy nie są zarejestrowane w schemacie, opcja Woluminy nie jest wyświetlana. Zamiast tego zostanie wyświetlona lista dostępnych tabel.

Zobacz szczegóły woluminu

SQL

Uruchom następujące polecenie, aby opisać wolumin.

DESCRIBE VOLUME volume_name

Zobacz OPIS WOLUMINU.

Eksplorator wykazu

Kliknij nazwę woluminu i wybierz kartę Szczegóły , aby przejrzeć szczegóły woluminu.

Wyświetlanie plików w woluminach

SQL

Uruchom następujące polecenie, aby wyświetlić listę plików w woluminie.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Eksplorator wykazu

Kliknij nazwę woluminu i wybierz kartę Szczegóły , aby przejrzeć szczegóły woluminu.

%fs

Uruchom następujące polecenie, aby wyświetlić listę plików w woluminie.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Narzędzia usługi Databricks

Uruchom następujące polecenie, aby wyświetlić listę plików w woluminie.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Wyświetlanie listy plików za pomocą identyfikatorów URI

Magazyn obiektów w chmurze skonfigurowany za pomocą metod innych niż woluminy można wykonywać zapytania przy użyciu identyfikatorów URI. Aby uzyskać dostęp do lokalizacji w chmurze, musisz mieć połączenie z obliczeniami z uprawnieniami. Uprawnienie ANY FILE jest wymagane w magazynach SQL i obliczeniach skonfigurowanych w trybie dostępu współdzielonego.

Uwaga

Dostęp identyfikatora URI do magazynu obiektów skonfigurowanego za pomocą woluminów nie jest obsługiwany. Nie można użyć Eksploratora wykazu do przeglądania zawartości magazynu obiektów, który nie został skonfigurowany z woluminami.

Poniższe przykłady obejmują przykładowe identyfikatory URI dla danych przechowywanych w usłudze Azure Data Lake Storage Gen2, S3 i GCS.

SQL

Uruchom następujące polecenie, aby wyświetlić listę plików w magazynie obiektów w chmurze.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Uruchom następujące polecenie, aby wyświetlić listę plików w magazynie obiektów w chmurze.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Narzędzia usługi Databricks

Uruchom następujące polecenie, aby wyświetlić listę plików w magazynie obiektów w chmurze.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")