Co to są wykazy w usłudze Azure Databricks?
Wykaz jest podstawową jednostką organizacji danych w modelu nadzoru danych usługi Azure Databricks Unity Catalog. Ten artykuł zawiera omówienie katalogów w wykazie aparatu Unity oraz o tym, jak najlepiej z nich korzystać.
Wykazy są pierwszą warstwą w trzy-poziomowej przestrzeni nazw wykazu aparatu Unity (catalog.schema.table-etc
). Zawierają one schematy, które z kolei mogą zawierać tabele, widoki, woluminy, modele i funkcje. Wykazy są rejestrowane w magazynie metadanych wykazu aparatu Unity na koncie usługi Azure Databricks.
Jak uporządkować dane w wykazy?
Podczas projektowania modelu zapewniania ładu danych należy dokładnie zastanowić się nad utworzonymi wykazami. Jako najwyższy poziom w modelu zapewniania ładu danych w organizacji każdy wykaz powinien reprezentować jednostkę logiczną izolacji danych i logiczną kategorię dostępu do danych, umożliwiając wydajną hierarchię dotacji do przepływu do schematów i obiektów danych, które zawierają. W związku z tym katalogi często dubluje jednostki organizacyjne lub zakresy cyklu życia tworzenia oprogramowania. Możesz na przykład wybrać wykaz danych produkcyjnych i wykaz danych programistycznych lub wykaz danych innych niż klient oraz wykaz danych innych niż klient oraz wykaz poufnych danych klientów.
Izolacja danych przy użyciu katalogów
Każdy wykaz ma zazwyczaj własną zarządzaną lokalizację magazynu do przechowywania zarządzanych tabel i woluminów, zapewniając izolację danych fizycznych na poziomie wykazu. Możesz również przechowywać dane na poziomie magazynu metadanych, zapewniając domyślną lokalizację przechowywania katalogów, które nie mają własnej zarządzanej lokalizacji magazynu. Magazyn można dodać na poziomie schematu, aby uzyskać bardziej szczegółową izolację danych.
Ponieważ konto usługi Azure Databricks ma jeden magazyn metadanych na region, wykazy są z natury odizolowane według regionów.
Aby uzyskać więcej informacji, zobacz Co to są obiekty bazy danych w usłudze Azure Databricks? i Dane są fizycznie oddzielone w magazynie.
Uprawnienia na poziomie wykazu
Ponieważ dotacje na dowolny obiekt wykazu aparatu Unity są dziedziczone przez elementy podrzędne tego obiektu, posiadanie wykazu lub posiadanie szerokich uprawnień w wykazie jest bardzo zaawansowane. Na przykład właściciele wykazu mają wszystkie uprawnienia do katalogu i obiektów w wykazie, a także mogą udzielić dostępu do dowolnego obiektu w wykazie. Użytkownicy z SELECT
wykazem mogą odczytywać dowolną tabelę w wykazie. Użytkownicy z CREATE TABLE
wykazem mogą utworzyć tabelę w dowolnym schemacie w wykazie.
Aby wymusić zasadę najniższych uprawnień, w przypadku gdy użytkownicy mają minimalny dostęp, muszą wykonywać wymagane zadania, zazwyczaj udziela się dostępu tylko do określonych obiektów lub poziomu w hierarchii wymaganej przez użytkownika. Jednak uprawnienia na poziomie wykazu umożliwiają właścicielowi wykazu zarządzanie tym, co właściciele obiektów niższego poziomu mogą przyznać. Nawet jeśli użytkownik ma dostęp do obiektu danych niskiego poziomu, takiego jak tabela, na przykład, ten użytkownik nie może uzyskać dostępu do tej tabeli, chyba że ma USE CATALOG
również uprawnienia do katalogu zawierającego tabelę.
Aby uzyskać więcej informacji, zobacz Zarządzanie własnością obiektów wykazu aparatu Unity, Ogólne typy uprawnień wykazu aparatu Unity oraz Bloki konstrukcyjne nadzoru nad danymi i izolacji danych.
Typy wykazu
Podczas tworzenia wykazu otrzymujesz dwie opcje:
- Wykaz standardowy: typowy wykaz używany jako jednostka podstawowa do organizowania obiektów danych w wykazie aparatu Unity. Jest to typ wykazu omówiony w tym artykule.
- Wykaz obcy: obiekt wykazu aparatu Unity, który jest używany tylko w scenariuszach federacyjnych usługi Lakehouse. Wykaz obcy odzwierciedla bazę danych w zewnętrznym systemie danych, umożliwiając wykonywanie zapytań tylko do odczytu w tym systemie danych w obszarze roboczym usługi Azure Databricks. Zobacz Co to jest Federacja Lakehouse?.
Oprócz tych dwóch typów wykazu usługa Azure Databricks automatycznie aprowizuje następujące wykazy podczas tworzenia nowego obszaru roboczego:
hive_metastore
catalog: to jest repozytorium wszystkich danych zarządzanych przez starszy magazyn metadanych Hive w obszarach roboczych usługi Azure Databricks. Gdy istniejący obszar roboczy wykazu nienależący do aparatu Unity jest konwertowany na wykaz aparatu Unity, wszystkie obiekty zarejestrowane w starszym magazynie metadanych Programu Hive są wyświetlane w wykaziehive_metastore
aparatu Unity. Aby uzyskać informacje na temat pracy z magazynem metadanych Hive obok katalogu aparatu Unity, zobacz Praca z wykazem aparatu Unity i starszym magazynem metadanych Hive. Magazyn metadanych Hive jest przestarzały, a wszystkie obszary robocze usługi Azure Databricks powinny zostać zmigrowane do wykazu aparatu Unity.- Wykaz obszarów roboczych: we wszystkich nowych obszarach roboczych ten wykaz jest tworzony domyślnie. Zazwyczaj udostępnia nazwę swojego obszaru roboczego. Jeśli ten wykaz istnieje, wszyscy użytkownicy w obszarze roboczym (i tylko w twoim obszarze roboczym) mają domyślnie dostęp do niego, co ułatwia użytkownikom wypróbowanie procesu tworzenia obiektów danych i uzyskiwania do nich dostępu w wykazie aparatu Unity. Zobacz Krok 1. Potwierdzenie włączenia obszaru roboczego dla wykazu aparatu Unity.
Katalog domyślny
Domyślny wykaz jest skonfigurowany dla każdego obszaru roboczego, który jest włączony dla wykazu aparatu Unity. Domyślny wykaz umożliwia wykonywanie operacji na danych bez określania wykazu. Jeśli pominięto nazwę wykazu najwyższego poziomu podczas wykonywania operacji na danych, przyjmuje się domyślny wykaz.
Jeśli obszar roboczy został włączony automatycznie dla wykazu aparatu Unity, katalog wstępnie aprowizowanego obszaru roboczego zostanie określony jako domyślny wykaz. Administrator obszaru roboczego może zmienić domyślny wykaz zgodnie z potrzebami.
Aby uzyskać szczegółowe informacje, zobacz Zarządzanie wykazem domyślnym.
Powiązanie wykazu obszarów roboczych
Jeśli używasz obszarów roboczych do izolowania dostępu do danych użytkownika, możesz użyć powiązań katalogu obszarów roboczych. Powiązania katalogu obszarów roboczych umożliwiają ograniczenie dostępu do wykazu według granic obszaru roboczego. Możesz na przykład upewnić się, że administratorzy obszaru roboczego i użytkownicy mogą uzyskiwać dostęp tylko do danych produkcyjnych w prod_catalog
środowisku obszaru roboczego produkcyjnego. prod_workspace
Wykazy są udostępniane wszystkim obszarom roboczym dołączonym do bieżącego magazynu metadanych, chyba że określono powiązanie. Zobacz Organizowanie danych i Ograniczanie dostępu katalogu do określonych obszarów roboczych.
Jeśli obszar roboczy został włączony automatycznie dla wykazu aparatu Unity, katalog wstępnie aprowizowanego obszaru roboczego jest domyślnie powiązany z obszarem roboczym.