Sdílení dat pomocí protokolu Delta Sharing Databricks-to-Databricks (pro poskytovatele)
Tento článek poskytuje přehled o tom, jak používat sdílení Databricks-to-Databricks Delta k bezpečnému sdílení dat s libovolným uživatelem Databricks bez ohledu na účet nebo hostitele cloudu, pokud má tento uživatel přístup k pracovnímu prostoru povolenému pro Katalogu Unity .
Poznámka:
Pokud jste příjemcem dat (uživatel nebo skupina uživatelů, se kterými jsou data Databricks sdílena), podívejte se na Přístup k datům, která s vámi byla sdílena pomocí Delta Sharing (pro příjemce).
Kdo by měl používat sdílení Databricks-to-Databricks Delta?
Data můžete sdílet třemi způsoby pomocí rozdílového sdílení.
protokolu sdílení Databricks-to-Databricks, který je popsaný v tomto článku, umožňuje sdílet data z pracovního prostoru s podporou katalogu Unity s uživateli, kteří mají také přístup k pracovnímu prostoru Databricks s podporou katalogu Unity.
Tento přístup používá server Delta Sharing, který je integrovaný do Azure Databricks a poskytuje podporu pro sdílení poznámkových bloků, zásady správného řízení dat v Katalogu Unity, auditování a sledování využití pro poskytovatele i příjemce. Integrace s katalogem Unity zjednodušuje nastavení a zásady správného řízení pro poskytovatele i příjemce a zlepšuje výkon.
otevřený protokol sdílení Databricks umožňuje sdílet data, která spravujete v pracovním prostoru Databricks s podporou katalogu Unity s uživateli na libovolné výpočetní platformě.
Viz Sdílení dat pomocí protokolu Delta Sharing open sharing (pro poskytovatele).
Implementace open source serveru Delta Sharing spravovaná zákazníkem umožňuje sdílet z libovolné platformy na libovolnou platformu, ať už databricks, nebo ne.
Úvod do rozdílového sdílení a další informace o těchto třech přístupech najdete v tématu Co je rozdílové sdílení?.
Pracovní postup sdílení Databricks-to-Databricks Delta
Tato část obsahuje základní přehled pracovního postupu sdílení Databricks-to-Databricks s odkazy na podrobnou dokumentaci pro jednotlivé kroky.
V modelu sdílení Databricks-to-Databricks Delta:
Příjemce dat poskytne poskytovateli dat jedinečný identifikátor sdílení pro metastore katalogu Databricks Unity, který je připojený k pracovnímu prostoru Databricks, který příjemce (který představuje uživatele nebo skupinu uživatelů), použije pro přístup k datům, která poskytovatel dat sdílí.
Podrobnosti najdete v kroku 1: Požádejte o identifikátor sdílení příjemce.
Poskytovatel dat vytvoří sdílení v metastore Unity katalogu poskytovatele. Tento pojmenovaný objekt obsahuje kolekci tabulek, zobrazení, svazků a poznámkových bloků registrovaných v metastoru.
Podrobnosti najdete v tématu Vytvoření a správa sdílených položek pro Delta Sharing.
Zprostředkovatel dat vytvoří objekt příjemce v metastoru katalogu Unity poskytovatele. Tento pojmenovaný objekt představuje uživatele nebo skupinu uživatelů, kteří budou přistupovat k datům zahrnutým ve sdílené složce, spolu s identifikátorem sdílení metastoru katalogu Unity, který je připojený k pracovnímu prostoru, který bude uživatel nebo skupina uživatelů používat pro přístup ke sdílené složce. Identifikátor sdílení je identifikátor klíče, který umožňuje zabezpečené připojení.
Podrobnosti najdete v kroku 2: Vytvoření příjemce.
Poskytovatel dat udělí příjemci přístup ke sdílené složce.
Podrobnosti najdete v tématu Správa přístupu ke sdíleným složkám dat delta (pro poskytovatele).
Sdílená složka bude dostupná v pracovním prostoru Databricks příjemce a uživatelé k ní mají přístup pomocí Průzkumníka katalogu, rozhraní příkazového řádku Databricks nebo příkazů SQL v poznámkovém bloku Azure Databricks nebo v editoru dotazů SQL Databricks.
Pro přístup k tabulkám, zobrazením, svazkům a poznámkovým blokům ve sdílené složce musí správce metastoru nebo privilegovaný uživatel vytvořit katalog ze sdílené složky. Tento uživatel nebo jiný uživatel, který má udělené příslušné oprávnění, pak může ostatním uživatelům udělit přístup k katalogu a objektům v katalogu. Udělení oprávnění ke sdíleným katalogům a datovým prostředkům funguje stejně jako u jiných prostředků registrovaných v katalogu Unity, přičemž důležité je, že uživatelům lze udělit přístup jen pro čtení u objektů v katalogech vytvořených ze sdílených složek Delta.
Sdílené poznámkové bloky jsou aktivní na úrovni katalogu a každý uživatel s oprávněním
USE CATALOG
v katalogu k nim má přístup.Podrobnosti o čtení dat sdílených pomocí Databricks-to-Databricks Delta Sharing (pro příjemce) najdete v tématu .
Zlepšení výkonu čtení tabulek pomocí sdílení historie
Důležitý
Tato funkce je ve verzi Public Preview.
Sdílení tabulek Databricks-to-Databricks mohou zvýšit výkon umožněním sdílení historie. Historie sdílení zlepšuje výkon díky využívání dočasných bezpečnostních přihlašovacích údajů z cloudového úložiště, omezené na kořenový adresář poskytovatelem sdílené tabulky Delta, což umožňuje výkon srovnatelný s přímým přístupem ke zdrojovým tabulkám.
- U nových sdílených složek tabulky zadejte při vytváření sdílené složky tabulky
WITH HISTORY
. Viz Přidat tabulky ke sdílenému úložišti. Když sdílíte tabulku pomocí výpočetních prostředků v Databricks Runtime 16.2 a novějším,WITH HISTORY
je výchozí. - U existujících sdílení tabulek musíte upravit toto sdílení, abyste sdíleli historii tabulek. Viz Aktualizace akcií. Když sdílíte tabulku pomocí výpočetních prostředků v Databricks Runtime 16.2 a novějším,
WITH HISTORY
je výchozí.
Když sdílíte celé schéma, všechny tabulky ve schématu se ve výchozím nastavení sdílí s historií.
Poznámka:
Tabulky s povoleným dělením nedostávají výhody sdílení historie. Viz Zadejte oddíly tabulky, které se mají sdílet
Ochrana soukromí dat při sdílení historických údajů
Poskytovatelé by měli vědět, že sdílení historie Databricks-to-Databricks poskytuje příjemcům Delta Sharing dočasný přístup ke čtení jak datových souborů, tak protokolu Delta. Protokol Delta obsahuje historii potvrzení pro každou verzi tabulky, informace o potvrzovateli (podobně jako historie potvrzení na GitHubu) a odstraněná data, která nebyla odstraněna.