Nahrání dat z Azure Data Lake Storage Gen2
Tento článek popisuje, jak připojit data do nového pracovního prostoru Azure Databricks z Azure Data Lake Storage Gen2. Dozvíte se, jak bezpečně přistupovat ke zdrojovým datům v cloudovém úložišti objektů, které odpovídá svazku katalogu Unity (doporučeno) nebo externímu umístění katalogu Unity. Pak se dozvíte, jak přírůstkově ingestovat data do spravované tabulky Unity Catalog pomocí Auto Loader s DLT.
Poznámka:
Pokud chcete připojit data v Databricks SQL místo v poznámkovém bloku, přečtěte si téma Načtení dat pomocí streamovaných tabulek v Databricks SQL.
Než začnete
Pokud nejste správcem, předpokládá se, že vám správce poskytl následující:
Přístup k pracovnímu prostoru Azure Databricks s povoleným katalogem Unity Další informace najdete v tématu Nastavení a správa katalogu Unity.
Oprávnění
READ VOLUME
pro externí svazek v Unity Catalog nebo oprávněníREAD FILES
pro externí umístění v Unity Catalog, které odpovídá umístění cloudového úložiště obsahujícího vaše zdrojová data. Další informace najdete v tématu Vytvoření externího umístění pro připojení cloudového úložiště k Azure Databricks.Cesta ke zdrojovým datům.
Příklad cesty svazku:
/Volumes/<catalog>/<schema>/<volume>/<path>/<folder>
Příklad cesty k externímu umístění:
abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>
Oprávnění
USE SCHEMA
aCREATE TABLE
ke schématu, do kterého chcete načíst data.oprávnění k vytvoření clusteru nebo přístup k zásadám clusteru definující cluster kanálu DLT (
cluster_type
pole nastavené nadlt
).Pokud je cesta ke zdrojovým datům cesta ke svazku, musí cluster spustit Databricks Runtime 13.3 LTS nebo vyšší.
Důležité
Pokud máte dotazy týkající se těchto požadavků, obraťte se na správce účtu.
Krok 1: Vytvoření clusteru
Pokud chcete vytvořit cluster, postupujte takto:
- Přihlaste se k pracovnímu prostoru Azure Databricks.
- Na bočním panelu klikněte na Nový>cluster.
- V uživatelském rozhraní clusterů zadejte jedinečný název clusteru.
- Pokud je cesta ke zdrojovým datům cesta ke svazku, pro Databricks Runtime runtime version vyberte verzi 13.2 nebo vyšší.
- Klikněte na Create cluster (Vytvořit cluster).
Krok 2: Vytvoření poznámkového bloku pro zkoumání dat
Tato část popisuje, jak vytvořit poznámkový blok pro zkoumání dat, abyste pochopili data před vytvořením datového kanálu.
Na bočním panelu klikněte na +Nový>poznámkový blok.
Poznámkový blok se automaticky připojí k poslednímu použitému clusteru (v tomto případě cluster, který jste vytvořili v kroku 1: Vytvoření clusteru).
Zadejte název poznámkového bloku.
Klikněte na tlačítko jazyka a pak vyberte
Python
neboSQL
z rozevírací nabídky.Python
je ve výchozím nastavení vybraná.Pokud chcete potvrdit přístup ke zdrojovým datům v ADLS Gen2, vložte do buňky poznámkového bloku následující kód, klikněte na
a potom klikněte na Spustit buňku.
SQL
LIST '<path-to-source-data>'
Python
%fs ls '<path-to-source-data>'
Nahraďte
<path-to-source-data>
cestu k adresáři, který obsahuje vaše data.Zobrazí se obsah adresáře, který obsahuje datovou sadu.
Pokud chcete zobrazit ukázku záznamů, abyste lépe porozuměli obsahu a formátu každého záznamu, vložte následující položky do buňky poznámkového bloku, klikněte na
položku a potom klikněte na spustit buňku.
SQL
SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
Python
spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
Nahraďte následující hodnoty:
-
<file-format>
: Podporovaný formát souboru. Viz Možnosti formátu souboru. -
<path to source data>
: Cesta k souboru v adresáři, který obsahuje vaše data.
Zobrazí se prvních deset záznamů ze zadaného souboru.
-
Krok 3: Příjem nezpracovaných dat
Pokud chcete ingestovat nezpracovaná data, postupujte takto:
Na bočním panelu klikněte na Nový>poznámkový blok.
Poznámkový blok se automaticky připojí k poslednímu použitému clusteru (v tomto případě cluster, který jste vytvořili dříve v tomto článku).
Zadejte název poznámkového bloku.
Klikněte na tlačítko jazyka a pak vyberte
Python
neboSQL
z rozevírací nabídky.Python
je ve výchozím nastavení vybraná.Do buňky poznámkového bloku vložte následující kód:
SQL
CREATE OR REFRESH STREAMING TABLE <table-name> AS SELECT * FROM STREAM read_files( '<path-to-source-data>', format => '<file-format>' )
Python
@dlt.table(table_properties={'quality': 'bronze'}) def <table-name>(): return ( spark.readStream.format('cloudFiles') .option('cloudFiles.format', '<file-format>') .load(f'{<path-to-source-data>}') )
Nahraďte následující hodnoty:
-
<table-name>
: Název tabulky, která bude obsahovat ingestované záznamy. -
<path-to-source-data>
: Cesta ke zdrojovým datům. -
<file-format>
: Podporovaný formát souboru. Viz Možnosti formátu souboru.
-
Poznámka:
DlT není navržený tak, aby interaktivně běžel v buňkách poznámkového bloku. Spuštění buňky, která obsahuje syntaxi DLT v poznámkovém bloku, vrátí zprávu, zda je dotaz syntakticky správný, ale nespustí dotazovou logiku. Následující krok popisuje, jak vytvořit datový kanál z poznámkového bloku pro příjem dat, který jste právě vytvořili.
Krok 4: Vytvoření a publikování pipeline
Pokud chcete vytvořit kanál a publikovat ho do katalogu Unity, postupujte takto:
- Na bočním panelu klepněte na tlačítko Pracovní postupy, klepněte na kartu DLT a potom klepněte na tlačítko Vytvořit kanál.
- Zadejte název potrubí.
- V režimu Pipeline vyberte Spuštěno.
- Jako zdrojový kód vyberte poznámkový blok, který obsahuje zdrojový kód vaší pipeliny.
- Jako cíl vyberte Katalog Unity.
- Pokud chcete zajistit, aby vaše tabulka byla spravována katalogem Unity a aby se na ni mohli dotazovat všichni uživatelé s přístupem k nadřazenému schématu, vyberte katalog a cílové schéma z rozevíracích seznamů.
- Pokud nemáte oprávnění k vytváření clusteru, vyberte zásadu clusteru, která podporuje DLT z rozevíracího seznamu.
- V části Upřesnit nastavte kanál na náhled.
- Přijměte všechny ostatní výchozí hodnoty a klikněte na Vytvořit.
Krok 5: Naplánování potrubí
Pokud chcete naplánovat potrubí, postupujte takto:
- Na bočním panelu klikněte na DLT.
- Klikněte na název pipeline, který chcete naplánovat.
- Klikněte na Naplánovat>Přidat plán.
- Jako název úlohy zadejte název úlohy.
- Nastavte plán na Naplánovaný.
- Zadejte období, počáteční čas a časové pásmo.
- Nakonfigurujte jednu nebo více e-mailových adres pro příjem upozornění o spuštění, úspěchu nebo selhání pipeline.
- Klikněte na Vytvořit.
Další kroky
- Udělte uživatelům přístup k nové tabulce. Další informace najdete v tématu Oprávnění katalogu Unity a zabezpečitelné objekty.
- Uživatelé s přístupem k nové tabulce se teď můžou dotazovat na tabulku v poznámkovém bloku nebo používat editor SQL Databricks.