Připojení k cloudovému úložišti objektů a službám pomocí katalogu Unity
Tento článek obsahuje přehled připojení cloudového úložiště, která jsou potřebná pro práci s daty pomocí katalogu Unity, a informace o tom, jak katalog Unity řídí přístup ke cloudovému úložišti a externím cloudovým službám.
Poznámka:
Pokud byl váš pracovní prostor vytvořen před 9. listopadem 2023, nemusí být povolený pro katalog Unity. Správce účtu musí pro váš pracovní prostor povolit katalog Unity. Viz Povolení pracovního prostoru pro katalog Unity.
Jak katalog Unity používá cloudové úložiště?
Databricks doporučuje ke správě přístupu ke všem datům uloženým v cloudovém úložišti objektů pomocí katalogu Unity. Unity Catalog poskytuje sadu nástrojů pro konfiguraci zabezpečených připojení ke cloudovému úložišti objektů. Tato připojení poskytují přístup k provedení následujících akcí:
- Ingestování nezpracovaných dat do jezera
- Vytváření a čtení spravovaných tabulek a spravovaných svazků nestrukturovaných dat v cloudovém úložišti spravovaném v Katalogu Unity
- Zaregistrujte nebo vytvořte externí tabulky obsahující tabulková data a externí svazky obsahující nestrukturovaná data v cloudovém úložišti spravovaném pomocí poskytovatele cloudu.
- Čtení a zápis nestrukturovaných dat (jako svazky katalogu Unity)
Katalog Unity používá cloudové úložiště dvěma primárními způsoby:
- Výchozí (nebo "spravovaná") umístění úložiště pro spravované tabulky a spravované svazky (nestrukturovaná, ne tabulková data), která vytvoříte v Databricks. Tato spravovaná umístění úložiště je možné definovat na úrovni metastoru, katalogu nebo schématu. Ve svém poskytovateli cloudu vytvoříte spravovaná umístění úložiště, ale jejich životní cyklus je plně spravovaný katalogem Unity.
- Umístění úložiště, kde jsou uložené externí tabulky a svazky. Jedná se o tabulky a svazky, jejichž přístup z Azure Databricks spravuje Katalog Unity, ale jejichž životní cyklus dat a rozložení souborů se spravují pomocí poskytovatele cloudu a dalších datových platforem. K registraci velkých objemů stávajících dat v Azure Databricks obvykle používáte externí tabulky nebo pokud potřebujete také přístup k zápisu k datům pomocí nástrojů mimo Azure Databricks.
Další informace o spravovaných a externích tabulkách a svazcích najdete v tématu Co jsou tabulky a zobrazení? a Co jsou svazky katalogu Unity?
Upozorňující
Neudělujte koncovým uživatelům přístup na úrovni úložiště ke spravovaným tabulkám nebo svazkům katalogu Unity. To ohrožuje zabezpečení a zásady správného řízení dat.
Udělení přístupu na úrovni úložiště uživatelům k externímu úložišti v Azure Data Lake Storage Gen2 nedodržuje žádná oprávnění udělená ani audity spravované katalogem Unity. Přímý přístup vynechá auditování, rodokmen a další funkce zabezpečení a monitorování katalogu Unity, včetně řízení přístupu a oprávnění. Zodpovídáte za správu přímého přístupu k úložišti prostřednictvím Azure Data Lake Storage Gen2 a zajišťujete, aby uživatelé měli příslušná oprávnění udělená prostřednictvím prostředků infrastruktury.
Vyhněte se všem scénářům, které udělují přímý přístup k zápisu na úrovni úložiště pro kontejnery, které ukládají spravované tabulky Databricks. Změna, odstranění nebo vývoj objektů přímo prostřednictvím úložiště, které byly původně spravovány katalogem Unity, může vést k poškození dat.
Kteří poskytovatelé cloudového úložiště jsou podporovaní?
Azure Databricks podporuje kontejnery Azure Data Lake Storage Gen2 i kontejnery Cloudflare R2 jako umístění cloudového úložiště pro data a prostředky AI zaregistrované v katalogu Unity. R2 je určen především pro případy použití, ve kterých se chcete vyhnout poplatkům za výchozí přenos dat, jako je rozdílové sdílení mezi cloudy a oblastmi. Další informace najdete v tématu Použití replik Cloudflare R2 nebo migrace úložiště na R2.
Jak katalog Unity řídí přístup ke cloudovému úložišti?
Ke správě přístupu k podkladovému cloudovému úložišti, které obsahuje tabulky a svazky, používá Katalog Unity zabezpečitelný objekt označovaný jako externí umístění, který definuje cestu k umístění cloudového úložiště a přihlašovací údaje potřebné pro přístup k němuž. Tyto přihlašovací údaje jsou dále definované v zabezpečitelném objektu katalogu Unity označovaném jako přihlašovací údaje úložiště. Udělením a odvoláním přístupu k externím umístěním zabezpečitelných v katalogu Unity řídíte přístup k datům v umístění cloudového úložiště. Udělením a odvoláním přístupu k přihlašovacím údajům úložiště v katalogu Unity řídíte možnost vytvářet objekty externího umístění.
Podrobnosti najdete v tématu Správa přístupu ke cloudovému úložišti pomocí katalogu Unity.
Přístup založený na cestě ke cloudovému úložišti
I když Katalog Unity podporuje přístup k externím tabulkám a externím svazkům pomocí identifikátorů URI cloudového úložiště, Doporučuje Databricks, aby uživatelé přečetli a zapisují všechny tabulky Katalogu Unity pomocí názvů tabulek a přistupují k datům ve svazcích pomocí /Volumes
cest. Svazky jsou zabezpečitelný objekt, který by většina uživatelů Azure Databricks měla použít k přímé interakci s ne tabulkovými daty v cloudovém úložišti objektů. Podívejte se, co jsou svazky katalogu Unity?
Osvědčené postupy pro cloudové úložiště s katalogem Unity
Azure Databricks vyžaduje použití Azure Data Lake Storage Gen2 jako služby úložiště Azure pro data zpracovávaná v Azure Databricks pomocí zásad správného řízení katalogu Unity. Azure Data Lake Storage Gen2 umožňuje oddělit náklady na úložiště a výpočetní prostředky a využívat jemně odstupňované řízení přístupu poskytované katalogem Unity. Pokud jsou data uložená v OneLake (Microsoft Fabric Data Lake) a zpracovávají se službou Databricks (obejití katalogu Unity), budou se vám začítat náklady na úložiště a výpočetní prostředky. To může vést k nákladům, které jsou přibližně 3x vyšší pro čtení a 1,6x vyšší pro zápisy v porovnání s Azure Data Lake Storage Gen2 pro ukládání, čtení a zápis dat. Služba Azure Blob Storage je také nekompatibilní s katalogem Unity.
Funkce | Azure Blob Storage | Azure Data Lake Storage Gen2 | OneLake |
---|---|---|---|
Podporováno katalogem Unity | X | ✓ | X |
Vyžaduje další nákup kapacity Fabric. | X | X | ✓ |
Podporované operace z externích modulů | - Číst - Zapsat |
- Číst - Zapsat |
– Čtení (čtení způsobuje 3x náklady ve srovnání se čtením dat z Azure Data Lake Storage Gen2). – Zápisy nejsou podporovány. Podrobnosti najdete v dokumentaci k OneLake. |
Nasazení | Regionální | Regionální | Globální |
Ověřování | Sdílený přístupový podpis Entra ID | Sdílený přístupový podpis Entra ID | Entra ID |
Události úložiště | ✓ | ✓ | X |
Obnovitelné odstranění | ✓ | ✓ | ✓ |
Řízení přístupu | RBAC | RBAC, ABAC, ACL | RBAC (pouze tabulka nebo složka, seznamy ACL zástupce se nepodporují) |
Šifrovací klíče | ✓ | ✓ | X |
Úrovně přístupu | Online archiv | Horká, studená, studená, archiv | Pouze horká |
Jak katalog Unity řídí přístup k jiným cloudovým službám?
Katalog Unity řídí přístup ke službám, které nejsou úložištěm, pomocí zabezpečitelného objektu označovaného jako přihlašovací údaje služby. Přihlašovací údaje služby zapouzdřuje dlouhodobé cloudové přihlašovací údaje, které poskytují přístup k externí službě, ke které se uživatelé potřebují připojit z Azure Databricks.
Přihlašovací údaje služby nejsou určené pro řízení přístupu ke cloudovému úložišti, které se používá jako umístění spravovaného úložiště katalogu Unity nebo externího úložiště. Pro tyto případy použití použijte přihlašovací údaje k úložišti, jak je popsáno v části Jak se řídí přístup ke cloudovému úložišti katalogu Unity?
Podrobnosti najdete tady:
- Správa přístupu k externím cloudovým službám pomocí přihlašovacích údajů služby
- Správa přihlašovacích údajů služby
- Připojení k externím cloudovým službám pomocí přihlašovacích údajů služby Katalogu Unity
Další kroky
Pokud právě začínáte s Katalogem Unity jako správcem, podívejte se na:
Pokud jste novým uživatelem a váš pracovní prostor už je povolený pro Katalog Unity, přečtěte si téma:
Další informace o správě přístupu ke cloudovému úložišti najdete tady:
Další informace o správě přístupu ke cloudovým službám najdete tady: