Sdílet prostřednictvím


Připojení k datovým sadám

Důležité

Tato funkce je ve verzi Public Preview.

StreamSets vám pomůže spravovat a monitorovat tok dat po celý jeho životní cyklus. Nativní integrace StreamSets s Azure Databricks a Delta Lake umožňuje snadno načíst data z různých zdrojů a spravovat vaše kanály.

Pro obecnou ukázku StreamSets se podívejte na následující video YouTube (10 minut).

Tady je postup použití StreamSets s Azure Databricks.

Krok 1: Vygenerování tokenu pat Databricks

StreamSets se ověřuje pomocí Azure Databricks pomocí tokenu pat pro Azure Databricks.

Poznámka:

Osvědčeným postupem při ověřování pomocí automatizovaných nástrojů, systémů, skriptů a aplikací doporučuje Databricks místo uživatelů pracovního prostoru používat tokeny patního přístupu, které patří instančním objektům . Pokud chcete vytvořit tokeny pro instanční objekty, přečtěte si téma Správa tokenů instančního objektu.

Krok 2: Nastavení clusteru pro podporu potřeb integrace

StreamSets zapisuje data do cesty azure Data Lake Storage a cluster integrace Azure Databricks bude číst data z daného umístění. Proto integrační cluster vyžaduje zabezpečený přístup k cestě Azure Data Lake Storage.

Zabezpečený přístup k cestě azure Data Lake Storage

K zabezpečení přístupu k datům v Azure Data Lake Storage (ADLS) můžete použít přístupový klíč účtu úložiště Azure (doporučeno) nebo instanční objekt Microsoft Entra ID.

Použití přístupového klíče účtu úložiště Azure

Přístupový klíč účtu úložiště můžete nakonfigurovat v integračním clusteru jako součást konfigurace Sparku. Ujistěte se, že má účet úložiště přístup ke kontejneru ADLS a systému souborů, který se používá pro přípravná data a kontejner ADLS a systém souborů, do kterého chcete zapisovat tabulky Delta Lake. Pokud chcete nakonfigurovat cluster integrace tak, aby používal klíč, postupujte podle kroků v tématu Připojení k Azure Data Lake Storage Gen2 a Blob Storage.

Použití instančního objektu Microsoft Entra ID

Instanční objekt můžete nakonfigurovat v clusteru integrace Azure Databricks jako součást konfigurace Sparku. Ujistěte se, že má instanční objekt přístup ke kontejneru ADLS, který se používá pro přípravná data, a kontejnerU ADLS, do kterého chcete zapisovat tabulky Delta. Pokud chcete nakonfigurovat integrační cluster tak, aby používal instanční objekt, postupujte podle kroků v Accessu ADLS Gen2 s instančním objektem.

Zadání konfigurace clusteru

  1. Nastavte režim clusteru na standardní.

  2. Nastavte verzi databricks Runtime na runtime: 6.3 nebo vyšší.

  3. Povolte optimalizované zápisy a automatické komprimace přidáním následujících vlastností do konfigurace Sparku:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Nakonfigurujte cluster v závislosti na potřebách integrace a škálování.

Podrobnosti o konfiguraci clusteru najdete v referenčních informacích ke konfiguraci výpočetních prostředků.

Postup získání adresy URL JDBC a cesty HTTP najdete v tématu Získání podrobností o připojení pro výpočetní prostředek Azure Databricks.

Krok 3: Získání podrobností o připojení JDBC a ODBC pro připojení ke clusteru

Pokud chcete připojit cluster Azure Databricks ke StreamSets, potřebujete následující vlastnosti připojení JDBC/ODBC:

  • JDBC URL
  • Cesta HTTP

Krok 4: Získání streamsetů pro Azure Databricks

Pokud ještě nemáte účet StreamSets, zaregistrujte se do Služby StreamSets pro Databricks. Až budete připraveni, můžete začít zdarma a upgradovat. Viz Ceny platformy StreamSets DataOps.

Krok 5: Naučte se používat StreamSets k načtení dat do Delta Lake

Začněte ukázkovým kanálem nebo se podívejte na řešení StreamSets a zjistěte, jak vytvořit kanál, který ingestuje data do Delta Lake.

Další materiály

Podpora