Udostępnij za pośrednictwem


Zalecenia dotyczące plików w woluminach i plikach w środowisku pracy

Podczas przesyłania lub zapisywania danych bądź plików na platformie Azure Databricks, można wybrać przechowanie tych plików za pomocą woluminów Unity Catalog lub plików obszaru roboczego. Ten artykuł zawiera zalecenia i wymagania dotyczące korzystania z tych lokalizacji. Aby uzyskać więcej informacji na temat woluminów i plików obszaru roboczego, zobacz Co to są woluminy katalogu Unity? i Czym są pliki obszaru roboczego?.

Usługa Databricks zaleca używanie woluminów Unity Catalog do przechowywania danych, bibliotek i artefaktów kompilacji. Przechowuj notesy, zapytania SQL i pliki kodu jako pliki obszaru roboczego. Katalogi plików obszaru roboczego można skonfigurować jako foldery Git do synchronizacji ze zdalnymi repozytoriami Git. Zobacz Integracja z usługą Git dla folderów Git usługi Databricks. Małe pliki danych używane w scenariuszach testowych mogą być również przechowywane jako pliki obszaru roboczego.

Poniższe tabele zawierają konkretne zalecenia dotyczące plików w zależności od typu pliku lub potrzeb funkcji.

Ważne

System plików usługi Databricks (DBFS) jest również dostępny dla magazynu plików, ale nie jest zalecany, ponieważ wszyscy użytkownicy obszaru roboczego mają dostęp do plików w systemie plików DBFS. Zobacz DBFS.

Typy plików

Poniższa tabela zawiera zalecenia dotyczące magazynu dla typów plików. Usługa Databricks obsługuje wiele formatów plików poza tym, co podano w tej tabeli jako przykłady.

Typ pliku Zalecenie
Obiekty usługi Databricks, takie jak notesy i zapytania Przechowywanie jako plików obszaru roboczego
Pliki danych ze strukturą, takie jak pliki Parquet i pliki ORC Przechowuj w woluminach Unity Catalog
Pliki danych częściowo ustrukturyzowanych, takie jak pliki tekstowe (.csv, .txt) i pliki JSON (.json) Przechowuj w woluminach Unity Catalog
Pliki danych bez struktury, takie jak pliki obrazów (.png, .svg), pliki audio (.mp3) i pliki dokumentów (.pdf, .docx) Przechowuj w woluminach Unity Catalog
Nieprzetworzone pliki danych używane do eksploracji danych adhoc lub wczesnej eksploracji danych Przechowuj w woluminach Unity Catalog
Dane operacyjne, takie jak pliki dziennika Przechowuj w woluminach Unity Catalog
Duże pliki archiwum, takie jak pliki ZIP (.zip) Przechowuj w woluminach Unity Catalog
Pliki kodu źródłowego, takie jak pliki języka Python (.py), pliki Java (.java) i pliki Scala (.scala) Przechowuj jako pliki obszaru roboczego, jeśli ma to zastosowanie, z innymi powiązanymi obiektami, takimi jak notesy i zapytania.

Usługa Databricks zaleca zarządzanie tymi plikami w folderze Git na potrzeby kontroli wersji i śledzenia zmian tych plików.
Tworzenie artefaktów i bibliotek, takich jak koła języka Python (.whl) i pliki JAR (.jar) Przechowuj w woluminach Unity Catalog
Pliki konfiguracji Przechowuj pliki konfiguracyjne wymagane w różnych obszarach roboczych w woluminach Unity Catalog. Przechowuj je jako pliki obszaru roboczego, jeśli są plikami projektu w folderze Git.

Porównanie funkcji

W poniższej tabeli porównano funkcje oferowane przez pliki obszaru roboczego oraz woluminy katalogu Unity .

Funkcja Pliki obszaru roboczego Woluminy katalogu Unity
Dostęp do plików Pliki obszaru roboczego są dostępne tylko dla siebie w tym samym obszarze roboczym. Pliki są globalnie dostępne w różnych obszarach roboczych.
Dostęp programowy Dostęp do plików można uzyskać przy użyciu:

— Interfejsy API platformy Spark
- ZAPALNIK
- dbutils
- Interfejs API REST
- Zestawy SDK usługi Databricks
- Interfejs wiersza polecenia usługi Databricks
Dostęp do plików można uzyskać przy użyciu:

— Interfejsy API platformy Spark
- ZAPALNIK
- dbutils
- Interfejs API REST
- Zestawy SDK usługi Databricks
- Łączniki SQL usługi Databricks
- Interfejs wiersza polecenia usługi Databricks
- Dostawca narzędzia Terraform usługi Databricks
Pakiety zasobów usługi Databricks Domyślnie wszystkie pliki w pakiecie, w tym biblioteki i obiekty usługi Databricks, takie jak notesy i zapytania, są wdrażane bezpiecznie jako pliki obszaru roboczego. Uprawnienia są definiowane w konfiguracji pakietu. Pakiety można spersonalizować, aby zawierały biblioteki już istniejące w woluminach, gdy przekraczają one limit rozmiaru plików obszaru roboczego. Zobacz Zależności biblioteki pakietów zasobów usługi Databricks.
Poziom uprawnień do pliku Uprawnienia są na poziomie folderu Git, jeśli plik znajduje się w folderze Git, w przeciwnym razie uprawnienia są ustawiane na poziomie pliku. Uprawnienia są na poziomie woluminu.
Zarządzanie uprawnieniami Uprawnienia są zarządzane przez listy ACL obszaru roboczego i są ograniczone do zawierającego obszaru roboczego. Metadane i uprawnienia są zarządzane przezkatalogu aparatu Unity. Te uprawnienia mają zastosowanie we wszystkich obszarach roboczych, które mają dostęp do katalogu.
Instalacja magazynu zewnętrznego Nie obsługuje instalowania magazynu zewnętrznego Udostępnia opcję wskazywania wstępnie istniejących zestawów danych w magazynie zewnętrznym przez utworzenie woluminu zewnętrznego. Zobacz Czym są woluminy katalogu Unity?.
Obsługa funkcji zdefiniowanej przez użytkownika Nieobsługiwane Zapisywanie z funkcji zdefiniowanych przez użytkownika jest obsługiwane przy użyciu woluminów FUSE
Rozmiar pliku Przechowuj mniejsze pliki mniejsze niż 500 MB, takie jak pliki kodu źródłowego (.py, .md, .yml) potrzebne razem z notesami. Przechowuj bardzo duże pliki danych w limitach określonych przez dostawców usług w chmurze.
Przekazywanie i pobieranie Obsługa przekazywania i pobierania do 10 MB. Obsługa przekazywania i pobierania do 5 GB.
Obsługa tworzenia tabel Nie można utworzyć tabel z plikami obszaru roboczego jako lokalizacją. Tabele można tworzyć na podstawie plików w woluminie, uruchamiając COPY INTO, Autoloader lub inne opcje opisane w Pozyskiwanie danych do Databricks Lakehouse.
Struktura katalogów i ścieżki plików Pliki są zorganizowane w katalogach zagnieżdżonych, z których każdy ma własny model uprawnień:

— Katalogi główne użytkownika, jeden dla każdego użytkownika i jednostki usługi w obszarze roboczym
— Foldery Git
-Udostępnionych
Pliki są zorganizowane w katalogach zagnieżdżonych wewnątrz woluminu

Zobacz Jak można uzyskać dostęp do danych w Unity Catalog?.
Historia plików Użyj folderu Git w obszarach roboczych, aby śledzić zmiany plików. Dzienniki inspekcji są dostępne.