Integrace katalogu Unity Databricks s OneLake
Tento scénář ukazuje, jak integrovat externí tabulky Delta katalogu Unity do OneLake pomocí klávesových zkratek. Po dokončení tohoto kurzu budete moct automaticky synchronizovat externí tabulky Delta katalogu Unity do Microsoft Fabric Lakehouse.
Požadavky
Než se připojíte, musíte mít:
- Pracovní prostor Infrastruktury.
- Fabric Lakehouse ve vašem pracovním prostoru.
- Externí tabulky Delta katalogu Unity vytvořené v rámci pracovního prostoru Azure Databricks
Nastavení připojení ke cloudovému úložišti
Nejprve zkontrolujte, která umístění úložiště v Azure Data Lake Storage Gen2 (ADLS Gen2) tabulky katalogu Unity používají. Toto připojení ke cloudovému úložišti používají zástupci OneLake. Vytvoření cloudového připojení k příslušnému umístění úložiště katalogu Unity:
Vytvořte připojení cloudového úložiště používané tabulkami katalogu Unity. Zjistěte, jak nastavit připojení ADLS Gen2.
Po vytvoření připojení získejte ID připojení výběrem možnosti Nastavení >Spravovat připojení a nastavení připojení>bran.>
Poznámka:
Udělení přístupu uživatelům na úrovni úložiště na úrovni externího umístění v ADLS Gen2 nedodržuje žádná oprávnění udělená ani audity spravované katalogem Unity. Přímý přístup vynechá auditování, rodokmen a další funkce zabezpečení/monitorování katalogu Unity, včetně řízení přístupu a oprávnění. Zodpovídáte za správu přímého přístupu k úložišti prostřednictvím ADLS Gen2 a zajišťujete, aby uživatelé měli příslušná oprávnění udělená prostřednictvím Prostředků infrastruktury. Vyhněte se všem scénářům udělení přístupu k zápisu na úrovni úložiště pro kontejnery, které ukládají spravované tabulky Databricks. Změna, odstranění nebo vývoj objektů přímo prostřednictvím úložiště, které byly původně spravovány katalogem Unity, může vést k poškození dat.
Spuštění poznámkového bloku
Po získání ID cloudového připojení integrujte tabulky katalogu Unity do Fabric Lakehouse následujícím způsobem:
Importujte synchronizační poznámkový blok do pracovního prostoru Fabric. Tento poznámkový blok exportuje všechna metadata tabulek katalogu Unity z daného katalogu a schémat ve vašem metastoru.
Nakonfigurujte parametry v první buňce poznámkového bloku pro integraci tabulek katalogu Unity. K exportu tabulek katalogu Unity se využívá rozhraní Databricks API ověřené prostřednictvím tokenu PAT. Následující fragment kódu slouží ke konfiguraci zdrojových parametrů (Katalogu Unity) a cíle (OneLake). Nezapomeňte je nahradit vlastními hodnotami.
# Databricks workspace dbx_workspace = "<databricks_workspace_url>" dbx_token = "<pat_token>" # Unity Catalog dbx_uc_catalog = "catalog1" dbx_uc_schemas = '["schema1", "schema2"]' # Fabric fab_workspace_id = "<workspace_id>" fab_lakehouse_id = "<lakehouse_id>" fab_shortcut_connection_id = "<connection_id>" # If True, UC table renames and deletes will be considered fab_consider_dbx_uc_table_changes = True
Spuštěním všech buněk poznámkového bloku spusťte synchronizaci tabulek Unity Catalog Delta do OneLake pomocí klávesových zkratek. Po dokončení poznámkového bloku jsou zástupci tabulek Unity Catalog Delta k dispozici v jezeře, koncovém bodu analýzy SQL a sémantickém modelu.
Naplánování poznámkového bloku
Pokud chcete poznámkový blok spustit v pravidelných intervalech a integrovat tabulky Unity Catalog Delta do OneLake bez ruční synchronizace nebo opětovného spuštění, můžete buď naplánovat poznámkový blok , nebo využít aktivitu poznámkového bloku v datovém kanálu v rámci služby Fabric Data Factory.
Pokud máte v úmyslu předat parametry z datového kanálu, v druhém scénáři určete první buňku poznámkového bloku jako buňku přepínacího parametru a zadejte příslušné parametry v kanálu.
Ostatní úvahy
- V produkčních scénářích doporučujeme ke správě tajných kódů použít Databricks OAuth pro ověřování a Azure Key Vault. K přístupu k tajným kódům služby Key Vault můžete například použít nástroje pro přihlašovací údaje MSSparkUtils .
- Poznámkový blok funguje s externími tabulkami Delta katalogu Unity. Pokud pro tabulky katalogu Unity používáte více umístění cloudového úložiště, tj. více než jedno ADLS Gen2, doporučujeme spustit poznámkový blok zvlášť pro každé cloudové připojení.
- Tabulky, zobrazení, materializovaná zobrazení, tabulky streamování a tabulky, které nejsou tabulky Delta spravované službou Unity, nejsou podporované.
- Změny schémat tabulek v Unity Catalog, jako je přidání nebo odstranění sloupců, se automaticky projeví v klávesových zkratkách. Některé aktualizace, jako je přejmenování a odstranění tabulky Katalogu Unity, ale vyžadují opětovnou synchronizaci nebo opětovné spuštění poznámkového bloku. Tento parametr se považuje za
fab_consider_dbx_uc_table_changes
parametr. - Při psaní scénářů může použití stejné vrstvy úložiště napříč různými výpočetními moduly vést k nezamýšleným důsledkům. Nezapomeňte pochopit důsledky při používání různých výpočetních modulů a verzí modulu runtime Apache Spark.