Sdílet prostřednictvím


Nahrání dat z Azure Data Lake Storage Gen2

Tento článek popisuje, jak připojit data do nového pracovního prostoru Azure Databricks z Azure Data Lake Storage Gen2. Dozvíte se, jak bezpečně přistupovat ke zdrojovým datům v cloudovém úložišti objektů, které odpovídá svazku katalogu Unity (doporučeno) nebo externímu umístění katalogu Unity. Pak se dozvíte, jak přírůstkově ingestovat data do spravované tabulky Unity Catalog pomocí Auto Loader s DLT.

Poznámka:

Pokud chcete připojit data v Databricks SQL místo v poznámkovém bloku, přečtěte si téma Načtení dat pomocí streamovaných tabulek v Databricks SQL.

Než začnete

Pokud nejste správcem, předpokládá se, že vám správce poskytl následující:

  • Přístup k pracovnímu prostoru Azure Databricks s povoleným katalogem Unity Další informace najdete v tématu Nastavení a správa katalogu Unity.

  • Oprávnění READ VOLUME pro externí svazek v Unity Catalog nebo oprávnění READ FILES pro externí umístění v Unity Catalog, které odpovídá umístění cloudového úložiště obsahujícího vaše zdrojová data. Další informace najdete v tématu Vytvoření externího umístění pro připojení cloudového úložiště k Azure Databricks.

  • Cesta ke zdrojovým datům.

    Příklad cesty svazku: /Volumes/<catalog>/<schema>/<volume>/<path>/<folder>

    Příklad cesty k externímu umístění: abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>

  • Oprávnění USE SCHEMA a CREATE TABLE ke schématu, do kterého chcete načíst data.

  • oprávnění k vytvoření clusteru nebo přístup k zásadám clusteru definující cluster kanálu DLT (cluster_type pole nastavené na dlt).

    Pokud je cesta ke zdrojovým datům cesta ke svazku, musí cluster spustit Databricks Runtime 13.3 LTS nebo vyšší.

Důležité

Pokud máte dotazy týkající se těchto požadavků, obraťte se na správce účtu.

Krok 1: Vytvoření clusteru

Pokud chcete vytvořit cluster, postupujte takto:

  1. Přihlaste se k pracovnímu prostoru Azure Databricks.
  2. Na bočním panelu klikněte na Nový>cluster.
  3. V uživatelském rozhraní clusterů zadejte jedinečný název clusteru.
  4. Pokud je cesta ke zdrojovým datům cesta ke svazku, pro Databricks Runtime runtime version vyberte verzi 13.2 nebo vyšší.
  5. Klikněte na Create cluster (Vytvořit cluster).

Krok 2: Vytvoření poznámkového bloku pro zkoumání dat

Tato část popisuje, jak vytvořit poznámkový blok pro zkoumání dat, abyste pochopili data před vytvořením datového kanálu.

  1. Na bočním panelu klikněte na +Nový>poznámkový blok.

    Poznámkový blok se automaticky připojí k poslednímu použitému clusteru (v tomto případě cluster, který jste vytvořili v kroku 1: Vytvoření clusteru).

  2. Zadejte název poznámkového bloku.

  3. Klikněte na tlačítko jazyka a pak vyberte Python nebo SQL z rozevírací nabídky. Python je ve výchozím nastavení vybraná.

  4. Pokud chcete potvrdit přístup ke zdrojovým datům v ADLS Gen2, vložte do buňky poznámkového bloku následující kód, klikněte na Nabídka Spustita potom klikněte na Spustit buňku.

    SQL

    LIST '<path-to-source-data>'
    

    Python

    %fs ls '<path-to-source-data>'
    

    Nahraďte <path-to-source-data> cestu k adresáři, který obsahuje vaše data.

    Zobrazí se obsah adresáře, který obsahuje datovou sadu.

  5. Pokud chcete zobrazit ukázku záznamů, abyste lépe porozuměli obsahu a formátu každého záznamu, vložte následující položky do buňky poznámkového bloku, klikněte na Nabídka Spustitpoložku a potom klikněte na spustit buňku.

    SQL

    SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
    

    Python

    spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
    

    Nahraďte následující hodnoty:

    • <file-format>: Podporovaný formát souboru. Viz Možnosti formátu souboru.
    • <path to source data>: Cesta k souboru v adresáři, který obsahuje vaše data.

    Zobrazí se prvních deset záznamů ze zadaného souboru.

Krok 3: Příjem nezpracovaných dat

Pokud chcete ingestovat nezpracovaná data, postupujte takto:

  1. Na bočním panelu klikněte na Nový>poznámkový blok.

    Poznámkový blok se automaticky připojí k poslednímu použitému clusteru (v tomto případě cluster, který jste vytvořili dříve v tomto článku).

  2. Zadejte název poznámkového bloku.

  3. Klikněte na tlačítko jazyka a pak vyberte Python nebo SQL z rozevírací nabídky. Python je ve výchozím nastavení vybraná.

  4. Do buňky poznámkového bloku vložte následující kód:

    SQL

    CREATE OR REFRESH STREAMING TABLE
      <table-name>
    AS SELECT
      *
    FROM
      STREAM read_files(
        '<path-to-source-data>',
        format => '<file-format>'
      )
    

    Python

    @dlt.table(table_properties={'quality': 'bronze'})
    def <table-name>():
      return (
         spark.readStream.format('cloudFiles')
         .option('cloudFiles.format', '<file-format>')
         .load(f'{<path-to-source-data>}')
     )
    

    Nahraďte následující hodnoty:

    • <table-name>: Název tabulky, která bude obsahovat ingestované záznamy.
    • <path-to-source-data>: Cesta ke zdrojovým datům.
    • <file-format>: Podporovaný formát souboru. Viz Možnosti formátu souboru.

Poznámka:

DlT není navržený tak, aby interaktivně běžel v buňkách poznámkového bloku. Spuštění buňky, která obsahuje syntaxi DLT v poznámkovém bloku, vrátí zprávu, zda je dotaz syntakticky správný, ale nespustí dotazovou logiku. Následující krok popisuje, jak vytvořit datový kanál z poznámkového bloku pro příjem dat, který jste právě vytvořili.

Krok 4: Vytvoření a publikování pipeline

Pokud chcete vytvořit kanál a publikovat ho do katalogu Unity, postupujte takto:

  1. Na bočním panelu klepněte na tlačítko Pracovní postupy, klepněte na kartu DLT a potom klepněte na tlačítko Vytvořit kanál.
  2. Zadejte název potrubí.
  3. V režimu Pipeline vyberte Spuštěno.
  4. Jako zdrojový kód vyberte poznámkový blok, který obsahuje zdrojový kód vaší pipeliny.
  5. Jako cíl vyberte Katalog Unity.
  6. Pokud chcete zajistit, aby vaše tabulka byla spravována katalogem Unity a aby se na ni mohli dotazovat všichni uživatelé s přístupem k nadřazenému schématu, vyberte katalog a cílové schéma z rozevíracích seznamů.
  7. Pokud nemáte oprávnění k vytváření clusteru, vyberte zásadu clusteru, která podporuje DLT z rozevíracího seznamu.
  8. V části Upřesnit nastavte kanál na náhled.
  9. Přijměte všechny ostatní výchozí hodnoty a klikněte na Vytvořit.

Krok 5: Naplánování potrubí

Pokud chcete naplánovat potrubí, postupujte takto:

  1. Na bočním panelu klikněte na DLT.
  2. Klikněte na název pipeline, který chcete naplánovat.
  3. Klikněte na Naplánovat>Přidat plán.
  4. Jako název úlohy zadejte název úlohy.
  5. Nastavte plán na Naplánovaný.
  6. Zadejte období, počáteční čas a časové pásmo.
  7. Nakonfigurujte jednu nebo více e-mailových adres pro příjem upozornění o spuštění, úspěchu nebo selhání pipeline.
  8. Klikněte na Vytvořit.

Další kroky