Eksplorowanie magazynu i znajdowanie plików danych
Ten artykuł koncentruje się na odnajdowaniu i eksplorowaniu katalogów i plików danych zarządzanych za pomocą woluminów wykazu aparatu Unity, w tym instrukcji opartych na interfejsie użytkownika dotyczących eksplorowania woluminów za pomocą Eksploratora wykazu. Ten artykuł zawiera również przykłady programowej eksploracji danych w magazynie obiektów w chmurze przy użyciu ścieżek woluminów i identyfikatorów URI w chmurze.
Usługa Databricks zaleca używanie woluminów do zarządzania dostępem do danych w magazynie obiektów w chmurze. Aby uzyskać więcej informacji na temat nawiązywania połączenia z danymi w magazynie obiektów w chmurze, zobacz Nawiązywanie połączenia ze źródłami danych.
Aby uzyskać pełny przewodnik dotyczący interakcji z plikami we wszystkich lokalizacjach, zobacz Praca z plikami w usłudze Azure Databricks.
Ważne
Podczas wyszukiwania plików w interfejsie użytkownika obszaru roboczego możesz odnaleźć pliki danych przechowywane jako pliki obszaru roboczego. Usługa Databricks zaleca używanie plików obszaru roboczego przede wszystkim dla kodu (takich jak skrypty i biblioteki), skrypty inicjowania lub pliki konfiguracji. Najlepiej ograniczyć dane przechowywane jako pliki obszaru roboczego do małych zestawów danych, które mogą być używane do zadań, takich jak testowanie podczas programowania i kontroli jakości. Zobacz Co to są pliki obszaru roboczego?.
Woluminy a starsze konfiguracje obiektów w chmurze
Gdy używasz woluminów do zarządzania dostępem do danych w magazynie obiektów w chmurze, możesz użyć ścieżki woluminów tylko do uzyskiwania dostępu do danych, a te ścieżki są dostępne we wszystkich obliczeniach z obsługą wykazu aparatu Unity. Nie można zarejestrować plików danych kopii zapasowych tabel wykazu aparatu Unity przy użyciu woluminów. Usługa Databricks zaleca używanie nazw tabel zamiast ścieżek plików do interakcji ze strukturą danych zarejestrowanych jako tabele wykazu aparatu Unity. Zobacz Jak działają ścieżki dla danych zarządzanych przez wykaz aparatu Unity?.
Jeśli używasz starszej metody do konfigurowania dostępu do danych w magazynie obiektów w chmurze, usługa Azure Databricks przywraca starsze uprawnienia list ACL tabeli. Użytkownicy, którzy chcą uzyskiwać dostęp do danych przy użyciu identyfikatorów URI w chmurze z usługi SQL Warehouse lub zasobów obliczeniowych skonfigurowanych w trybie dostępu współdzielonego, wymagają ANY FILE
uprawnienia. Zobacz Kontrola dostępu do tabel magazynu metadanych Hive (starsza wersja).
Usługa Azure Databricks udostępnia kilka interfejsów API do wyświetlania listy plików w magazynie obiektów w chmurze. Większość przykładów w tym artykule koncentruje się na używaniu woluminów. Aby zapoznać się z przykładami dotyczącymi interakcji z danymi w magazynie obiektów skonfigurowanym bez woluminów, zobacz Wyświetlanie listy plików z identyfikatorami URI.
Eksplorowanie woluminów
Eksplorator wykazu umożliwia eksplorowanie danych w woluminach i przeglądanie szczegółów woluminu. Możesz zobaczyć tylko woluminy, do których masz uprawnienia do odczytu, dzięki czemu można wykonywać zapytania dotyczące wszystkich odnalezionych danych w ten sposób.
Za pomocą języka SQL można eksplorować woluminy i ich metadane. Aby wyświetlić listę plików w woluminach, możesz użyć programu SQL, %fs
polecenia magic lub narzędzi usługi Databricks. Podczas interakcji z danymi w woluminach należy użyć ścieżki dostarczonej przez wykaz aparatu Unity, która zawsze ma następujący format:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Wyświetlanie woluminów
SQL
Uruchom następujące polecenie, aby wyświetlić listę woluminów w danym schemacie.
SHOW VOLUMES IN catalog_name.schema_name;
Zobacz SHOW VOLUMES (POKAŻ WOLUMINY).
Eksplorator wykazu
Aby wyświetlić woluminy w danym schemacie za pomocą Eksploratora wykazu, wykonaj następujące czynności:
- Wybierz ikonę Wykaz.
- Wybierz wykaz.
- Wybierz schemat.
- Kliknij pozycję Woluminy , aby rozwinąć wszystkie woluminy w schemacie.
Uwaga
Jeśli żadne woluminy nie są zarejestrowane w schemacie, opcja Woluminy nie jest wyświetlana. Zamiast tego zostanie wyświetlona lista dostępnych tabel.
Zobacz szczegóły woluminu
SQL
Uruchom następujące polecenie, aby opisać wolumin.
DESCRIBE VOLUME volume_name
Zobacz OPIS WOLUMINU.
Eksplorator wykazu
Kliknij nazwę woluminu i wybierz kartę Szczegóły , aby przejrzeć szczegóły woluminu.
Wyświetlanie plików w woluminach
SQL
Uruchom następujące polecenie, aby wyświetlić listę plików w woluminie.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Eksplorator wykazu
Kliknij nazwę woluminu i wybierz kartę Szczegóły , aby przejrzeć szczegóły woluminu.
%fs
Uruchom następujące polecenie, aby wyświetlić listę plików w woluminie.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Narzędzia usługi Databricks
Uruchom następujące polecenie, aby wyświetlić listę plików w woluminie.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Wyświetlanie listy plików za pomocą identyfikatorów URI
Magazyn obiektów w chmurze skonfigurowany za pomocą metod innych niż woluminy można wykonywać zapytania przy użyciu identyfikatorów URI. Aby uzyskać dostęp do lokalizacji w chmurze, musisz mieć połączenie z obliczeniami z uprawnieniami. Uprawnienie ANY FILE
jest wymagane w magazynach SQL i obliczeniach skonfigurowanych w trybie dostępu współdzielonego.
Uwaga
Dostęp identyfikatora URI do magazynu obiektów skonfigurowanego za pomocą woluminów nie jest obsługiwany. Nie można użyć Eksploratora wykazu do przeglądania zawartości magazynu obiektów, który nie został skonfigurowany z woluminami.
Poniższe przykłady obejmują przykładowe identyfikatory URI dla danych przechowywanych w usłudze Azure Data Lake Storage Gen2, S3 i GCS.
SQL
Uruchom następujące polecenie, aby wyświetlić listę plików w magazynie obiektów w chmurze.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Uruchom następujące polecenie, aby wyświetlić listę plików w magazynie obiektów w chmurze.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Narzędzia usługi Databricks
Uruchom następujące polecenie, aby wyświetlić listę plików w magazynie obiektów w chmurze.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")