Databázové objekty v Azure Databricks
Azure Databricks používá k ukládání a přístupu k datům dva primární zabezpečitelné objekty.
- Tabulky řídí přístup k tabulkovým datům.
- Svazky řídí přístup k ne tabulkovým datům .
Tento článek popisuje, jak tyto databázové objekty souvisejí s katalogy, schématy, zobrazeními a dalšími databázovými objekty v Azure Databricks. Tento článek také poskytuje základní úvod do fungování databázových objektů v kontextu celkové architektury platformy.
Co jsou databázové objekty v Azure Databricks?
Databázové objekty jsou entity, které vám pomůžou uspořádat, přistupovat k datům a řídit je. Azure Databricks používá třívrstvou hierarchii k uspořádání databázových objektů:
- Katalog: Kontejner nejvyšší úrovně obsahuje schémata. Podívejte se, co jsou katalogy v Azure Databricks?
- Schéma nebo databáze: Obsahuje datové objekty. Podívejte se, co jsou schémata v Azure Databricks?
- Datové objekty, které mohou být obsaženy ve schématu:
- Svazek: Logický svazek ne tabulkových dat v cloudovém úložišti objektů. Podívejte se, co jsou svazky katalogu Unity?
- Tabulka: kolekce dat uspořádaných podle řádků a sloupců. Podívejte se, co jsou tabulky a zobrazení?
- Zobrazení: uložený dotaz na jednu nebo více tabulek. Podívejte se , co je zobrazení?.
- Funkce: uložená logika, která vrací skalární hodnotu nebo sadu řádků. Viz uživatelem definované funkce (UDF) v katalogu Unity.
- Model: model strojového učení zabalený pomocí MLflow. Viz Správa životního cyklu modelu v katalogu Unity.
Katalogy se registrují v metastoru spravovaném na úrovni účtu. Pouze správci komunikují přímo s metastorem. Viz Metastory.
Azure Databricks poskytuje další prostředky pro práci s daty, z nichž všechny se dají řídit pomocí řízení přístupu na úrovni pracovního prostoru nebo katalogu Unity, řešení zásad správného řízení dat Databricks:
- Datové prostředky na úrovni pracovního prostoru, jako jsou poznámkové bloky, úlohy a dotazy.
- Zabezpečitelné objekty v katalogu Unity, jako jsou přihlašovací údaje úložiště a sdílené složky Pro sdílení delta, které primárně řídí přístup k úložišti nebo zabezpečenému sdílení.
Další informace najdete v tématu Databázové objekty a prostředky zabezpečitelných dat pracovního prostoru a zabezpečitelné přihlašovací údaje a infrastrukturu katalogu Unity.
Správa přístupu k databázovým objektům pomocí katalogu Unity
Přístup k databázovým objektům můžete udělit a odvolat na libovolné úrovni hierarchie, včetně samotného metastoru. Přístup k objektu implicitně uděluje stejný přístup všem podřízeným objektům, pokud není přístup odvolán.
K udělení a odvolání přístupu k objektům v katalogu Unity můžete použít typické příkazy ANSI SQL. Průzkumníka katalogu můžete také použít ke správě oprávnění datového objektu řízené uživatelským rozhraním.
Další informace o zabezpečení objektů v katalogu Unity naleznete v tématu Zabezpečitelné objekty v katalogu Unity.
Výchozí oprávnění objektu v katalogu Unity
V závislosti na tom, jak byl váš pracovní prostor vytvořen a povolený pro katalog Unity, můžou mít uživatelé výchozí oprávnění k automaticky zřízeným katalogům, včetně main
katalogu nebo katalogu pracovních prostorů (<workspace-name>
). Další informace najdete v tématu Výchozí uživatelská oprávnění.
Pokud byl váš pracovní prostor pro katalog Unity povolen ručně, obsahuje výchozí schéma pojmenované default
v main
katalogu, které je přístupné všem uživatelům ve vašem pracovním prostoru. Pokud byl váš pracovní prostor povolený pro katalog Unity automaticky a obsahuje <workspace-name>
katalog, obsahuje tento katalog schéma default
, které je přístupné všem uživatelům ve vašem pracovním prostoru.
Databázové objekty versus zabezpečitelné datové prostředky pracovního prostoru
Azure Databricks umožňuje spravovat několik datových inženýrů, analýz, ML a prostředků AI společně s databázovými objekty. Tyto datové prostředky neregistrujete v katalogu Unity. Místo toho se tyto prostředky spravují na úrovni pracovního prostoru pomocí seznamů ovládacích prvků k řízení oprávnění. Mezi tyto datové prostředky patří:
- Poznámkové bloky
- Řídicí panely
- Úlohy
- Pipelines
- Soubory pracovního prostoru
- Dotazy SQL
- Experimenty
Většina datových prostředků obsahuje logiku, která komunikuje s databázovými objekty za účelem dotazování na data, použití funkcí, registrace modelů nebo jiných běžných úloh. Další informace o zabezpečení datových prostředků pracovního prostoru najdete v tématu Seznamy řízení přístupu.
Poznámka:
Přístup k výpočetním prostředkům se řídí seznamy řízení přístupu. Výpočetní prostředky nakonfigurujete pomocí režimu přístupu a můžete přidat další cloudová oprávnění, která řídí, jak uživatelé můžou přistupovat k datům. Databricks doporučuje používat zásady výpočetních prostředků a omezit oprávnění vytváření clusteru jako osvědčený postup zásad správného řízení dat. Viz režimy Accessu.
Zabezpečitelné přihlašovací údaje a infrastrukturu katalogu Unity
Katalog Unity spravuje přístup ke cloudovému úložišti objektů, sdílení dat a federaci dotazů pomocí zabezpečitelných objektů registrovaných na úrovni metastoru. Níže jsou uvedené stručné popisy těchto zabezpečitelných objektů, které nejsou daty.
Připojení katalogu Unity k cloudovému úložišti objektů
Abyste mohli vytvořit nové spravované umístění úložiště nebo registrovat externí tabulky nebo externí svazky, musíte definovat přihlašovací údaje úložiště a externí umístění. Tyto zabezpečitelné objekty jsou zaregistrované v katalogu Unity:
- Přihlašovací údaje úložiště: Dlouhodobé cloudové přihlašovací údaje, které poskytují přístup ke cloudovému úložišti.
- Externí umístění: Odkaz na cestu cloudového úložiště objektů, která je přístupná pomocí spárovaných přihlašovacích údajů úložiště.
Viz Připojení ke cloudovému úložišti objektů a službám pomocí katalogu Unity.
Rozdílové sdílení
Azure Databricks zaregistruje následující zabezpečitelné objekty Delta Sharing v katalogu Unity:
- Sdílená složka: Kolekce tabulek, svazků a dalších datových prostředků jen pro čtení.
- Poskytovatel: Organizace nebo entita, která sdílí data. V modelu sdílení Databricks-to-Databricks je poskytovatel zaregistrovaný v metastoru katalogu Unity příjemce jako jedinečná entita identifikovaná id metastoru.
- Příjemce: Entita, která přijímá sdílené složky od poskytovatele. V modelu sdílení Databricks-to-Databricks je příjemce identifikován zprostředkovateli pomocí jedinečného ID metastoru.
Podívejte se, co je rozdílové sdílení?
Federace Lakehouse
Lakehouse Federation umožňuje vytvářet cizí katalogy, které poskytují přístup jen pro čtení k datům umístěným v jiných systémech, jako jsou PostgreSQL, MySQL a Snowflake. Abyste mohli vytvářet cizí katalogy, musíte definovat připojení k externímu systému.
Připojení: Zabezpečitelný objekt katalogu Unity určuje cestu a přihlašovací údaje pro přístup k externímu databázovému systému ve scénáři federace Lakehouse.
Podívejte se , co je Federace Lakehouse?.
Spravovaná umístění úložiště pro spravované svazky a tabulky
Když vytváříte tabulky a svazky Azure Databricks, máte možnost je spravovat nebo externí. Katalog Unity spravuje přístup k externím tabulkám a svazkům z Azure Databricks, ale neřídí základní soubory ani plně nespravuje umístění úložiště těchto souborů. Spravované tabulky a svazky jsou naopak plně spravovány katalogem Unity a ukládají se do spravovaného umístění úložiště, které je přidružené k obsahujícímu schématu. Viz Určení spravovaného umístění úložiště v katalogu Unity.
Databricks doporučuje spravované svazky a spravované tabulky pro většinu úloh, protože zjednodušují konfiguraci, optimalizaci a zásady správného řízení.
Katalog Unity vs. starší metastore Hive
Databricks doporučuje používat Katalog Unity pro registraci a řízení všech databázových objektů, ale také poskytuje starší podporu metastoru Hive pro správu schémat, tabulek, zobrazení a funkcí.
Pokud pracujete s databázovými objekty zaregistrovanými pomocí metastoru Hive, přečtěte si téma Databázové objekty ve starší verzi metastoru Hive.