Tworzenie magazynu metadanych usługi Unity Catalog
W tym artykule pokazano, jak utworzyć magazyn metadanych wykazu aparatu Unity i połączyć go z obszarami roboczymi.
Ważne
W przypadku obszarów roboczych, które zostały włączone dla wykazu aparatu Unity automatycznie, instrukcje zawarte w tym artykule są niepotrzebne. Usługa Databricks zaczęła automatycznie włączać nowe obszary robocze dla wykazu aparatu Unity 9 listopada 2023 r., a wdrożenie przebiega stopniowo między kontami. Musisz postępować zgodnie z instrukcjami w tym artykule tylko wtedy, gdy masz obszar roboczy i nie masz jeszcze magazynu metadanych w regionie obszaru roboczego. Aby określić, czy magazyn metadanych już istnieje w Twoim regionie, zobacz Automatyczne włączanie wykazu aparatu Unity.
Magazyn metadanych jest kontenerem najwyższego poziomu dla danych w wykazie aparatu Unity. Magazyny metadanych wykazu aparatu Unity rejestrują metadane dotyczące zabezpieczanych obiektów (takich jak tabele, woluminy, lokalizacje zewnętrzne i udziały) oraz uprawnienia, które zarządzają dostępem do nich. Każdy magazyn metadanych uwidacznia trzy-poziomową przestrzeń nazw (catalog
.schema
.),table
za pomocą której można organizować dane. Musisz mieć jeden magazyn metadanych dla każdego regionu, w którym działa organizacja. Aby pracować z wykazem aparatu Unity, użytkownicy muszą znajdować się w obszarze roboczym dołączonym do magazynu metadanych w ich regionie.
Aby utworzyć magazyn metadanych, wykonaj następujące czynności:
Na koncie platformy Azure opcjonalnie utwórz lokalizację magazynu dla magazynu metadanych magazynu zarządzanych tabel i woluminów.
Aby uzyskać informacje ułatwiające określenie, czy potrzebujesz magazynu metadanych, zobacz (Opcjonalnie) Tworzenie magazynu metadanych na poziomie magazynu metadanych, a dane są fizycznie oddzielone w magazynie.
Na koncie platformy Azure utwórz tożsamość zarządzaną platformy Azure lub jednostkę usługi, która zapewnia dostęp do tej lokalizacji magazynu.
W usłudze Azure Databricks utwórz magazyn metadanych, dołącz lokalizację magazynu i przypisz obszary robocze do magazynu metadanych.
Uwaga
Oprócz metod opisanych w tym artykule można również utworzyć magazyn metadanych przy użyciu dostawcy narzędzia Terraform usługi Databricks, w szczególności zasobu databricks_metastore . Aby umożliwić katalogowi aparatu Unity dostęp do magazynu metadanych, użyj databricks_metastore_data_access. Aby połączyć obszary robocze z magazynem metadanych, użyj databricks_metastore_assignment.
Zanim rozpoczniesz
Przed rozpoczęciem zapoznaj się z podstawowymi pojęciami dotyczącymi wykazu aparatu Unity, w tym magazynami metadanych i magazynem zarządzanym. Sprawdź temat Co to jest wykaz Unity?.
Należy również potwierdzić, że spełniasz następujące wymagania dotyczące wszystkich kroków konfiguracji:
Musisz być administratorem konta usługi Azure Databricks.
Pierwszym administratorem konta usługi Azure Databricks musi być administrator globalny microsoft Entra ID w momencie pierwszego zalogowania się do konsoli konta usługi Azure Databricks. Po pierwszym zalogowaniu użytkownik staje się administratorem konta usługi Azure Databricks i nie potrzebuje już roli administratora globalnego microsoft Entra ID, aby uzyskać dostęp do konta usługi Azure Databricks. Pierwszy administrator konta może przypisać użytkowników w dzierżawie Microsoft Entra ID jako dodatkowych administratorów kont (którzy mogą przypisywać więcej administratorów kont). Dodatkowi administratorzy kont nie wymagają określonych ról w identyfikatorze Entra firmy Microsoft.
Obszary robocze dołączane do magazynu metadanych muszą znajdować się w planie usługi Azure Databricks Premium.
Jeśli chcesz skonfigurować magazyn główny na poziomie magazynu metadanych, musisz mieć uprawnienia do tworzenia następujących elementów w dzierżawie platformy Azure:
- Konto magazynu do użycia z usługą Azure Data Lake Storage Gen2. Zobacz Tworzenie konta magazynu do użycia z usługą Azure Data Lake Storage Gen2.
- Nowy zasób do przechowywania tożsamości zarządzanej przypisanej przez system. Wymaga to, aby być współautorem lub właścicielem grupy zasobów w dowolnej subskrypcji w dzierżawie.
Krok 1 (opcjonalnie): Tworzenie kontenera magazynu dla magazynu zarządzanego na poziomie magazynu metadanych
W tym kroku, który jest opcjonalny, utworzysz konto magazynu i kontener do przechowywania zarządzanych danych tabeli i woluminu na poziomie magazynu metadanych. Aby określić, czy potrzebujesz magazynu na poziomie magazynu metadanych, zobacz (Opcjonalnie) Tworzenie magazynu metadanych na poziomie magazynu.
Utwórz konto magazynu dla usługi Azure Data Lake Storage Gen2.
To konto magazynu będzie zawierać tabele i woluminy zarządzane przez wykaz aparatu Unity. Musi to być konto usługi Azure Data Lake Storage Gen2 w tym samym regionie co obszary robocze usługi Azure Databricks. Zobacz Tworzenie konta magazynu do użycia z usługą Azure Data Lake Storage Gen2.
Utwórz kontener magazynu, który będzie przechowywać zarządzane tabele i dane woluminów na poziomie magazynu metadanych.
Można utworzyć tylko jeden magazyn metadanych na region. Musisz użyć tego samego regionu dla magazynu metadanych i kontenera magazynu.
Tę lokalizację magazynu na poziomie magazynu metadanych można zastąpić na poziomach wykazu i schematu. Zobacz Określanie lokalizacji magazynu zarządzanego w katalogu aparatu Unity.
Zanotuj identyfikator URI ADLSv2 dla kontenera, który ma następujący format:
abfss://<container-name>@<storage-account-name>.dfs.core.windows.net/<metastore-name>
W kolejnych krokach zastąp
<storage-container>
ciąg tym identyfikatorem URI.
Krok 2 (opcjonalnie): Tworzenie tożsamości zarządzanej w celu uzyskania dostępu do zarządzanej lokalizacji magazynu
W tym kroku, który jest wymagany tylko w przypadku ukończenia kroku 1, utworzysz łącznik dostępu usługi Azure Databricks, który zawiera tożsamość zarządzaną i przyznasz mu dostęp do kontenera magazynu.
Postępuj zgodnie z instrukcjami w artykule Używanie tożsamości zarządzanych platformy Azure w katalogu aparatu Unity, aby uzyskać dostęp do magazynu.
Uwaga
Tożsamość zarządzana platformy Azure lub jednostka usługi można użyć jako tożsamości, która zapewnia dostęp do kontenera magazynu metadanych. Usługa Databricks zdecydowanie zaleca tożsamości zarządzane, ponieważ nie wymagają one przechowywania poświadczeń ani rotacji wpisów tajnych, a także umożliwiają nawiązywanie połączenia z kontem usługi Azure Data Lake Storage Gen2 chronionym przez zaporę magazynu. Jeśli chcesz użyć jednostki usługi, zobacz Tworzenie magazynu zarządzanego wykazu aparatu Unity przy użyciu jednostki usługi (starsza wersja).
Krok 3. Tworzenie magazynu metadanych i dołączanie obszaru roboczego
Każdy region usługi Azure Databricks wymaga własnego magazynu metadanych wykazu aparatu Unity.
Tworzysz magazyn metadanych dla każdego regionu, w którym działa organizacja. Każdy z tych regionalnych magazynów metadanych można połączyć z dowolną liczbą obszarów roboczych w tym regionie. Każdy połączony obszar roboczy ma ten sam widok danych w magazynie metadanych, a kontrola dostępu do danych może być zarządzana między obszarami roboczymi. Dostęp do danych można uzyskać w innych magazynach metadanych przy użyciu funkcji Udostępniania różnicowego.
Jeśli zdecydujesz się utworzyć magazyn na poziomie magazynu metadanych, magazyn metadanych będzie używać kontenera magazynu i tożsamości zarządzanej platformy Azure utworzonej w poprzednich krokach.
Aby utworzyć magazyn metadanych:
Jeśli wybrano opcję tworzenia magazynu metadanych, upewnij się, że masz ścieżkę do kontenera magazynu i identyfikator zasobu łącznika dostępu usługi Azure Databricks utworzonego w poprzednim zadaniu.
Zaloguj się do obszaru roboczego jako administrator konta.
Kliknij swoją nazwę użytkownika na górnym pasku obszaru roboczego usługi Azure Databricks i wybierz pozycję Zarządzaj kontem.
Zaloguj się do konsoli konta usługi Azure Databricks.
Kliknij pozycję Wykaz.
Kliknij pozycję Utwórz magazyn metadanych.
Wprowadź następujące informacje:
Nazwa magazynu metadanych.
Region , w którym zostanie wdrożony magazyn metadanych.
Musi to znajdować się w tym samym regionie co obszary robocze, których chcesz użyć do uzyskiwania dostępu do danych. Jeśli zdecydujesz się utworzyć kontener magazynu dla magazynu metadanych, ten region również musi być taki sam.
(Opcjonalnie) Ścieżka usługi ADLS Gen 2: wprowadź ścieżkę do kontenera magazynu, który będzie używany jako magazyn główny dla magazynu metadanych.
Prefiks
abfss://
jest dodawany automatycznie.(Opcjonalnie) Identyfikator łącznika dostępu: wprowadź identyfikator zasobu łącznika dostępu usługi Azure Databricks w formacie:
/subscriptions/12f34567-8ace-9c10-111c-aea8eba12345c/resourceGroups/<resource-group>/providers/Microsoft.Databricks/accessConnectors/<connector-name>
Kliknij pozycję Utwórz.
Po wyświetleniu monitu wybierz obszary robocze, aby połączyć się z magazynem metadanych.
Aby uzyskać szczegółowe informacje, zobacz Włączanie obszaru roboczego dla wykazu aparatu Unity.
Przenieś rolę administratora magazynu metadanych do grupy.
Użytkownik, który tworzy magazyn metadanych, jest jego właścicielem, nazywany również administratorem magazynu metadanych. Administrator magazynu metadanych może tworzyć obiekty najwyższego poziomu w magazynie metadanych, takich jak wykazy, i zarządzać dostępem do tabel i innych obiektów. Usługa Databricks zaleca ponowne przypisanie roli administratora magazynu metadanych do grupy. Zobacz Przypisywanie administratora magazynu metadanych.
Włącz zarządzanie przekazywaniem w usłudze Azure Databricks do woluminów zarządzanych.
Usługa Azure Databricks używa współużytkowania zasobów między źródłami (CORS) do przekazywania danych do woluminów zarządzanych w wykazie aparatu Unity. Zobacz Konfigurowanie konta magazynu wykazu aparatu Unity dla mechanizmu CORS.