Udostępnij za pośrednictwem


Nawiązywanie połączenia z magazynem obiektów w chmurze i usługami przy użyciu wykazu aparatu Unity

Ten artykuł zawiera omówienie połączeń magazynu w chmurze, które są wymagane do pracy z danymi przy użyciu wykazu aparatu Unity, wraz z informacjami na temat sposobu, w jaki wykaz aparatu Unity zarządza dostępem do magazynu w chmurze i zewnętrznych usług w chmurze.

Uwaga

Jeśli obszar roboczy został utworzony przed 9 listopada 2023 r., może nie być włączony dla wykazu aparatu Unity. Administrator konta musi włączyć wykaz aparatu Unity dla obszaru roboczego. Zobacz Włączanie obszaru roboczego dla wykazu aparatu Unity.

Jak wykaz aparatu Unity korzysta z magazynu w chmurze?

Usługa Databricks zaleca używanie wykazu aparatu Unity do zarządzania dostępem do wszystkich danych przechowywanych w magazynie obiektów w chmurze. Wykaz aparatu Unity udostępnia zestaw narzędzi do konfigurowania bezpiecznych połączeń z magazynem obiektów w chmurze. Te połączenia zapewniają dostęp do wykonania następujących akcji:

  • Pozyskiwanie danych pierwotnych do magazynu lakehouse.
  • Tworzenie i odczytywanie zarządzanych tabel oraz woluminów zarządzanych danych bez struktury w magazynie w chmurze zarządzanym przez wykaz aparatu Unity.
  • Zarejestruj lub utwórz tabele zewnętrzne zawierające dane tabelaryczne i woluminy zewnętrzne zawierające dane bez struktury w magazynie w chmurze zarządzane przy użyciu dostawcy usług w chmurze.
  • Odczytywanie i zapisywanie danych bez struktury (jako woluminów wykazu aparatu Unity).

Aby być bardziej szczegółowe, katalog aparatu Unity używa magazynu w chmurze na dwa podstawowe sposoby:

  • Domyślne (lub "zarządzane") lokalizacje magazynu dla zarządzanych tabel i woluminów zarządzanych (bez struktury, danych innych niż tabelaryczne), które są tworzone w usłudze Databricks. Te zarządzane lokalizacje magazynu można zdefiniować na poziomie magazynu metadanych, katalogu lub schematu. Lokalizacje magazynu zarządzanego są tworzone u dostawcy usług w chmurze, ale ich cykl życia jest w pełni zarządzany przez katalog aparatu Unity.
  • Lokalizacje magazynu, w których przechowywane są zewnętrzne tabele i woluminy. Są to tabele i woluminy, których dostęp z usługi Azure Databricks jest zarządzany przez wykaz aparatu Unity, ale którego cykl życia danych i układ plików są zarządzane przy użyciu dostawcy usług w chmurze i innych platform danych. Zazwyczaj używasz tabel zewnętrznych do rejestrowania dużych ilości istniejących danych w usłudze Azure Databricks lub jeśli potrzebujesz również dostępu do zapisu do danych przy użyciu narzędzi spoza usługi Azure Databricks.

Aby uzyskać więcej informacji na temat zarządzanych tabel i woluminów, zobacz Co to są tabele i widoki? i Co to są woluminy wykazu aparatu Unity?.

Ostrzeżenie

Nie należy udzielać użytkownikom końcowym dostępu na poziomie magazynu do zarządzanych tabel lub woluminów wykazu aparatu Unity. To zagraża bezpieczeństwu danych i ładowi.

Udzielanie użytkownikom bezpośredniego dostępu na poziomie magazynu do magazynu lokalizacji zewnętrznej w usłudze Azure Data Lake Storage Gen2 nie przyznaje żadnych uprawnień ani inspekcji obsługiwanych przez wykaz aparatu Unity. Bezpośredni dostęp spowoduje obejście inspekcji, pochodzenia i innych funkcji zabezpieczeń i monitorowania wykazu aparatu Unity, w tym kontroli dostępu i uprawnień. Odpowiadasz za zarządzanie bezpośrednim dostępem do magazynu za pośrednictwem usługi Azure Data Lake Storage Gen2 i zapewnienie, że użytkownicy mają odpowiednie uprawnienia przyznane za pośrednictwem sieci szkieletowej.

Unikaj wszystkich scenariuszy, które zapewniają bezpośredni dostęp do zapisu na poziomie magazynu dla zasobników, które przechowują tabele zarządzane przez usługę Databricks. Modyfikowanie, usuwanie lub rozwijanie dowolnych obiektów bezpośrednio za pośrednictwem magazynu, które zostały pierwotnie zarządzane przez wykaz aparatu Unity, może spowodować uszkodzenie danych.

Którzy dostawcy magazynu w chmurze są obsługiwani?

Usługa Azure Databricks obsługuje zarówno kontenery usługi Azure Data Lake Storage Gen2, jak i zasobniki cloudflare R2 jako lokalizacje magazynu w chmurze dla danych i zasobów sztucznej inteligencji zarejestrowanych w wykazie aparatu Unity. R2 jest przeznaczony głównie dla przypadków użycia, w których chcesz uniknąć opłat za ruch wychodzący danych, takich jak udostępnianie różnicowe w chmurach i regionach. Aby uzyskać więcej informacji, zobacz Use Cloudflare R2 replicas or migrate storage to R2 (Używanie replik cloudflare R2 lub migrowanie magazynu do wersji R2).

Jak wykaz aparatu Unity zarządza dostępem do magazynu w chmurze?

Aby zarządzać dostępem do bazowego magazynu w chmurze zawierającego tabele i woluminy, wykaz aparatu Unity używa zabezpieczanego obiektu o nazwie lokalizacji zewnętrznej, który definiuje ścieżkę do lokalizacji magazynu w chmurze i poświadczenia wymagane do uzyskania dostępu do tej lokalizacji. Te poświadczenia są z kolei zdefiniowane w zabezpieczanym obiekcie wykazu aparatu Unity nazywanym poświadczenie magazynu. Udzielając i cofając dostęp do zabezpieczanych lokalizacji zewnętrznych w katalogu aparatu Unity, można kontrolować dostęp do danych w lokalizacji magazynu w chmurze. Udzielając i cofając dostęp do zabezpieczanych poświadczeń magazynu w wykazie aparatu Unity, można kontrolować możliwość tworzenia obiektów lokalizacji zewnętrznej.

Aby uzyskać szczegółowe informacje, zobacz Zarządzanie dostępem do magazynu w chmurze przy użyciu wykazu aparatu Unity.

Dostęp oparty na ścieżkach do magazynu w chmurze

Mimo że usługa Unity Catalog obsługuje dostęp oparty na ścieżkach do tabel zewnętrznych i woluminów zewnętrznych przy użyciu identyfikatorów URI magazynu w chmurze, usługa Databricks zaleca użytkownikom odczytywanie i zapisywanie wszystkich tabel wykazu aparatu Unity przy użyciu nazw tabel i uzyskiwania dostępu do danych w woluminach przy użyciu /Volumes ścieżek. Woluminy to zabezpieczany obiekt, którego większość użytkowników usługi Azure Databricks powinna używać do bezpośredniej interakcji z danymi nie tabelarycznymi w magazynie obiektów w chmurze. Zobacz Co to są woluminy wykazu aparatu Unity?.

Najlepsze rozwiązania dotyczące magazynu w chmurze z wykazem aparatu Unity

Usługa Azure Databricks wymaga użycia usługi Azure Data Lake Storage Gen2 jako usługi Azure Storage na potrzeby danych przetwarzanych w usłudze Azure Databricks przy użyciu ładu w wykazie aparatu Unity. Usługa Azure Data Lake Storage Gen2 umożliwia oddzielenie kosztów magazynowania i zasobów obliczeniowych oraz korzystanie z szczegółowej kontroli dostępu udostępnianej przez wykaz aparatu Unity. Jeśli dane są przechowywane w usłudze OneLake (data lake usługi Microsoft Fabric) i przetwarzane przez usługę Databricks (pomijając wykaz aparatu Unity), zostaną naliczone powiązane koszty magazynowania i zasobów obliczeniowych. Może to prowadzić do kosztów, które są około 3 razy wyższe w przypadku operacji odczytu i 1,6 razy wyższe w przypadku operacji zapisu w porównaniu z usługą Azure Data Lake Storage Gen2 na potrzeby przechowywania, odczytywania i zapisywania danych. Usługa Azure Blob Storage jest również niezgodna z wykazem aparatu Unity.

Funkcja Azure Blob Storage Azure Data Lake Storage Gen2 OneLake
Obsługiwane przez wykaz aparatu Unity X X
Wymaga dodatkowego zakupu pojemności sieci szkieletowej X X
Obsługiwane operacje z aparatów zewnętrznych - Czytaj
- Zapisz
- Czytaj
- Zapisz
— Odczyt (operacje odczytu generują 3 razy koszt w porównaniu do odczytywania danych z usługi Azure Data Lake Storage Gen2).
- Zapisy nie są obsługiwane.

Aby uzyskać szczegółowe informacje, zobacz dokumentację usługi OneLake.
Wdrożenie Regionalne Regionalne Globalnie
Uwierzytelnianie Sygnatura dostępu współdzielonego identyfikatora entra Sygnatura dostępu współdzielonego identyfikatora entra Identyfikator entra
Zdarzenia usługi Storage X
Usuwanie nietrwałe
Kontrola dostępu RBAC Kontrola dostępu oparta na rolach, ABAC, lista ACL Kontrola dostępu oparta na rolach (tylko tabela/folder, skróty ACL nie są obsługiwane)
Klucze szyfrowania X
Poziomy dostępu Archiwum online Gorące, chłodne, zimne, archiwum Tylko gorąca

W jaki sposób wykaz aparatu Unity zarządza dostępem do innych usług w chmurze?

Wykaz aparatu Unity zarządza dostępem do usług innych niż magazyn przy użyciu zabezpieczanego obiektu nazywanego poświadczeniami usługi. Poświadczenia usługi hermetyzują długoterminowe poświadczenia chmury, które zapewniają dostęp do usługi zewnętrznej, z którą użytkownicy muszą nawiązać połączenie z usługi Azure Databricks.

Poświadczenia usługi nie są przeznaczone do zarządzania dostępem do magazynu w chmurze, który jest używany jako lokalizacja magazynu zarządzanego przez wykaz aparatu Unity lub zewnętrzna lokalizacja magazynu. W tych przypadkach użycia użyj poświadczeń magazynu zgodnie z opisem w temacie Jak wykaz aparatu Unity zarządza dostępem do magazynu w chmurze?.

Aby uzyskać szczegółowe informacje, zobacz:

Następne kroki

Jeśli dopiero zaczynasz korzystać z wykazu aparatu Unity jako administrator, zobacz:

Jeśli jesteś nowym użytkownikiem i obszar roboczy jest już włączony dla wykazu aparatu Unity, zobacz:

Aby dowiedzieć się więcej na temat zarządzania dostępem do magazynu w chmurze, zobacz:

Aby dowiedzieć się więcej na temat zarządzania dostępem do usług w chmurze, zobacz: