Sdílet prostřednictvím


Sdílení dat pomocí protokolu Delta Sharing Databricks-to-Databricks (pro poskytovatele)

Tento článek poskytuje přehled o tom, jak používat sdílení Databricks-to-Databricks Delta k bezpečnému sdílení dat s libovolným uživatelem Databricks bez ohledu na účet nebo hostitele cloudu, pokud má tento uživatel přístup k pracovnímu prostoru povolenému pro Katalog Unity.

Poznámka:

Pokud jste příjemcem dat (uživatel nebo skupina uživatelů, se kterými data Databricks sdílíte), podívejte se na informace o accessových datech sdílených s vámi pomocí rozdílového sdílení (pro příjemce).

Kdo by měl používat sdílení Databricks-to-Databricks Delta?

Data můžete sdílet třemi způsoby pomocí rozdílového sdílení.

  1. Protokol sdílení Databricks-to-Databricks, který je popsaný v tomto článku, umožňuje sdílet data z pracovního prostoru s podporou katalogu Unity s uživateli, kteří mají také přístup k pracovnímu prostoru Databricks s podporou katalogu Unity.

    Tento přístup používá server Delta Sharing, který je integrovaný do Azure Databricks a poskytuje podporu pro sdílení poznámkových bloků, zásady správného řízení dat v Katalogu Unity, auditování a sledování využití pro poskytovatele i příjemce. Integrace s katalogem Unity zjednodušuje nastavení a zásady správného řízení pro poskytovatele i příjemce a zlepšuje výkon.

  2. Otevřený protokol sdílení Databricks umožňuje sdílet data, která spravujete v pracovním prostoru Databricks s podporou katalogu Unity s uživateli na libovolné výpočetní platformě.

    Viz Sdílení dat pomocí protokolu pro otevřené sdílení rozdílového sdílení (pro poskytovatele).

  3. Implementace open source serveru Delta Sharing spravovaná zákazníkem umožňuje sdílet z libovolné platformy na libovolnou platformu, ať už databricks, nebo ne.

    Viz github.com/delta-io/delta-sharing.

Úvod do rozdílového sdílení a další informace o těchto třech přístupech najdete v tématu Co je rozdílové sdílení?.

Pracovní postup sdílení Databricks-to-Databricks Delta

Tato část obsahuje základní přehled pracovního postupu sdílení Databricks-to-Databricks s odkazy na podrobnou dokumentaci pro jednotlivé kroky.

V modelu sdílení Databricks-to-Databricks Delta:

  1. Příjemce dat poskytne poskytovateli dat jedinečný identifikátor sdílení metastoru katalogu Databricks Unity, který je připojený k pracovnímu prostoru Databricks, který příjemce (který představuje uživatele nebo skupinu uživatelů), použije pro přístup k datům, která poskytovatel dat sdílí.

    Podrobnosti najdete v kroku 1: Žádost o identifikátor sdílení příjemce.

  2. Zprostředkovatel dat vytvoří sdílenou složku v metastoru katalogu Unity poskytovatele. Tento pojmenovaný objekt obsahuje kolekci tabulek, zobrazení, svazků a poznámkových bloků registrovaných v metastoru.

    Podrobnosti najdete v tématu Vytváření a správa sdílených složek pro rozdílové sdílení.

  3. Zprostředkovatel dat vytvoří objekt příjemce v metastoru katalogu Unity poskytovatele. Tento pojmenovaný objekt představuje uživatele nebo skupinu uživatelů, kteří budou přistupovat k datům zahrnutým ve sdílené složce, spolu s identifikátorem sdílení metastoru katalogu Unity, který je připojený k pracovnímu prostoru, který bude uživatel nebo skupina uživatelů používat pro přístup ke sdílené složce. Identifikátor sdílení je identifikátor klíče, který umožňuje zabezpečené připojení.

    Podrobnosti najdete v kroku 2: Vytvoření příjemce.

  4. Poskytovatel dat udělí příjemci přístup ke sdílené složce.

    Podrobnosti najdete v tématu Správa přístupu ke sdíleným složkám dat delta (pro poskytovatele).

  5. Sdílená složka bude dostupná v pracovním prostoru Databricks příjemce a uživatelé k ní mají přístup pomocí Průzkumníka katalogu, rozhraní příkazového řádku Databricks nebo příkazů SQL v poznámkovém bloku Azure Databricks nebo v editoru dotazů SQL Databricks.

    Pro přístup k tabulkám, zobrazením, svazkům a poznámkovým blokům ve sdílené složce musí správce metastoru nebo privilegovaný uživatel vytvořit katalog ze sdílené složky. Tento uživatel nebo jiný uživatel, který má udělené příslušné oprávnění, pak může ostatním uživatelům udělit přístup k katalogu a objektům v katalogu. Udělení oprávnění ke sdíleným katalogům a datovým prostředkům funguje stejně jako u jiných prostředků registrovaných v katalogu Unity, přičemž důležité je, že uživatelům lze udělit přístup jen pro čtení u objektů v katalogech vytvořených ze sdílených složek Delta.

    Sdílené poznámkové bloky jsou aktivní na úrovni katalogu a každý uživatel s oprávněním USE CATALOG v katalogu k nim má přístup.

    Podrobnosti najdete v tématu Čtení dat sdílených pomocí Sdílení Databricks-to-Databricks Delta (pro příjemce).

Zlepšení výkonu čtení tabulek pomocí sdílení historie

Důležitý

Tato funkce je ve verzi Public Preview.

Sdílení tabulek Databricks-to-Databricks může zlepšit výkon díky možnosti sdílení historie. Historie sdílení zlepšuje výkon díky využívání dočasných bezpečnostních přihlašovacích údajů z cloudového úložiště, omezených na kořenovou složku sdílené tabulky Delta poskytovatele, a výsledkem je výkon srovnatelný s přímým přístupem ke zdrojovým tabulkám.

  • U nových sdílených složek tabulky zadejte při vytváření sdílené složky tabulky WITH HISTORY. Viz Přidejte tabulky do sdílení.
  • U existujících sdílení tabulek je nutné upravit sdílení, aby se sdílela historie tabulek. Viz Aktualizace akcií.

Poznámka:

Tabulky s povoleným dělením nedostávají výhody sdílení historie. Podívejte se na Určete oddíly tabulky, které chcete sdílet

Ochrana soukromí dat při sdílení historických údajů

Poskytovatelé by si měli být vědomi, že sdílení historie Databricks-to-Databricks poskytuje příjemcům Delta Sharing dočasný přístup ke čtení datových souborů i protokolu Delta. Protokol Delta obsahuje historii potvrzení pro každou verzi tabulky, informace o osobě, která provedla potvrzení (podobně jako historie potvrzení na GitHubu) a odstraněná data, která nebyla vyčištěna.