Připojení k Infoworks
Důležité
Tato funkce je ve verzi Public Preview.
Infoworks DataFoundry je automatizovaný podnikový systém pro operace a orchestraci dat, který běží nativně v Azure Databricks a využívá plnou sílu Azure Databricks k zajištění jednoduchého řešení pro onboarding dat – důležitý první krok při zprovoznění datového jezera. DataFoundry nejen automatizuje příjem dat, ale také automatizuje klíčové funkce, které musí doprovázet příjem dat, aby bylo možné vytvořit základ pro analýzu. Onboarding dat pomocí služby DataFoundry automatizuje:
- Příjem dat: ze všech podnikových a externích zdrojů dat
- Synchronizace dat: CDC pro zachování synchronizace dat se zdrojem
- Zásady správného řízení dat: katalogizace, rodokmen, správa metadat, audit a historie
Tady je postup použití Infoworks s Azure Databricks.
Krok 1: Vygenerování osobního přístupového tokenu Databricks
Infoworks se ověřuje pomocí Azure Databricks pomocí tokenu pat pro Azure Databricks.
Poznámka:
Osvědčeným postupem při ověřování pomocí automatizovaných nástrojů, systémů, skriptů a aplikací doporučuje Databricks místo uživatelů pracovního prostoru používat tokeny patního přístupu, které patří instančním objektům . Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.
Krok 2: Nastavení clusteru pro podporu potřeb integrace
Infoworks zapíše data do cesty ke službě Azure Data Lake Storage a cluster integrace Azure Databricks bude číst data z daného umístění. Proto integrační cluster vyžaduje zabezpečený přístup k cestě Azure Data Lake Storage.
Zabezpečený přístup k cestě azure Data Lake Storage
K zabezpečení přístupu k datům v Azure Data Lake Storage (ADLS) můžete použít přístupový klíč účtu úložiště Azure (doporučeno) nebo instanční objekt Microsoft Entra ID.
Použití přístupového klíče účtu úložiště Azure
Přístupový klíč účtu úložiště můžete nakonfigurovat v integračním clusteru jako součást konfigurace Sparku. Ujistěte se, že má účet úložiště přístup ke kontejneru ADLS a systému souborů, který se používá pro přípravná data a kontejner ADLS a systém souborů, do kterého chcete zapisovat tabulky Delta Lake. Pokud chcete nakonfigurovat cluster integrace tak, aby používal klíč, postupujte podle kroků v tématu Připojení k Azure Data Lake Storage Gen2 a Blob Storage.
Použití instančního objektu Microsoft Entra ID
Instanční objekt můžete nakonfigurovat v clusteru integrace Azure Databricks jako součást konfigurace Sparku. Ujistěte se, že má hlavní služba přístup ke kontejneru ADLS, který se používá pro přípravná data, a ke kontejneru ADLS, do kterého chcete zapisovat tabulky Delta. Pokud chcete nakonfigurovat integrační cluster tak, aby používal instanční objekt, postupujte podle kroků v Accessu ADLS Gen2 s instančním objektem.
Zadání konfigurace clusteru
Nastavte clusterový režim na standardní.
Nastavte verzi Databricks Runtime na verzi Databricks Runtime.
Povolte optimalizované zápisy a automatické komprimace přidáním následujících vlastností do konfigurace Sparku:
spark.databricks.delta.optimizeWrite.enabled true spark.databricks.delta.autoCompact.enabled true
Nakonfigurujte cluster v závislosti na potřebách integrace a škálování.
Podrobnosti o konfiguraci clusteru najdete v referenčních informacích ke konfiguraci výpočetních prostředků.
Viz Získání podrobností o připojení pro výpočetní prostředek Azure Databricks pro kroky k získání adresy URL JDBC a cesty HTTP.
Krok 3: Získání podrobností o připojení JDBC a ODBC pro připojení ke clusteru
Pokud chcete připojit cluster Azure Databricks k Infoworks, potřebujete následující vlastnosti připojení JDBC/ODBC:
- JDBC URL
- Cesta HTTP
Krok 4: Získání infoworks pro Azure Databricks
Další informace a ukázku najdete v infoworks.