Zarządzane kontra zewnętrzne volumes
W tym artykule omówiono różnice między zarządzanymi volumes i zewnętrznymi volumes oraz powody, dla których można wybrać użycie zewnętrznego volumes. Databricks rekomenduje zarządzane rozwiązanie volumes jako najprostsze rozwiązanie do przechowywania i zarządzania dostępem do danych niebędących tabelarycznymi.
Aby uzyskać więcej wskazówek dotyczących używania Unity Catalog do konfigurowania dostępu do magazynu obiektów w chmurze, zobacz Połącz z magazynem obiektów w chmurze i usługami za pomocą Unity Catalog.
różnice między zachowaniem zarządzanym a zewnętrznym volumes
Zarządzane i zewnętrzne usługi volumes zapewniają niemal identyczne doświadczenia przy korzystaniu z narzędzi, UI i API Azure Databricks. Poniżej przedstawiono różnice między tymi typami woluminów.
Zarządzane volumes zapewniają w pełni zarządzane środowisko pamięci masowej. Oznacza to, że:
- Wszystkie interakcje z plikami w ramach zarządzania volumes muszą odbywać się przez Unity Catalog.
- Nazewnictwo katalogów i układ danych są zarządzane przez Unity Catalog. Nazwy katalogów obejmują skróty, aby uniknąć konfliktów na źródłowych kontach magazynu obiektów w chmurze.
- Po usunięciu woluminu zarządzanego usługa Azure Databricks usunie bazowe dane w ciągu 30 dni.
Zewnętrzne volumes wprowadzają nadzór nad danymi do magazynowania obiektów w chmurze. Oznacza to, że:
- Identyfikatory URI w chmurze można używać w usłudze Azure Databricks lub systemach zewnętrznych do interakcji z plikami w zewnętrznych volumes.
- Wszystkie katalogi utworzone w woluminie zewnętrznym lub przekazanych plikach są względem określonego
LOCATION
podczas tworzenia. - Po odłączeniu woluminu zewnętrznego remove z Unity Catalog, dane bazowe pozostają niezmienione w lokalizacji zewnętrznej.
Dlaczego warto używać zewnętrznych volumes?
Zewnętrzne volumes pozwalają na dodanie zarządzania danymi Unity Catalog do istniejących katalogów w chmurowym magazynie obiektów. Niektóre przypadki użycia zewnętrznego volumes obejmują następujące:
- Dodawanie ładu do plików danych bez migracji.
- Zarządzanie plikami utworzonymi przez inne systemy, które muszą być pozyskiwane lub uzyskiwane przez usługę Azure Databricks.
- Zarządzanie danymi utworzonymi przez usługę Azure Databricks, które muszą być dostępne bezpośrednio z magazynu obiektów w chmurze przez inne systemy.
Usługa Databricks zaleca używanie volumes zewnętrznych do przechowywania plików danych innych niż tabelaryczne, które są odczytywane lub zapisywane przez systemy zewnętrzne oprócz usługi Azure Databricks. Catalog Unity nie zarządza odczytami i zapisami wykonywanymi bezpośrednio względem magazynu obiektów w chmurze z systemów zewnętrznych, dlatego należy skonfigurować dodatkowe zasady i credentials na koncie w chmurze, aby upewnić się, że zasady zarządzania danymi są przestrzegane poza usługą Azure Databricks.