Sdílet prostřednictvím


dbt – úloha pro úlohy

Pomocí úlohy dbt nakonfigurujte a spusťte projekty dbt v Azure Databricks.

Důležité

Při spuštění úloh dbt databricks vloží DBT_ACCESS_TOKEN instanční objekt nakonfigurovaný v poli Spustit jako .

Konfigurace úlohy dbt

dbt Přidejte úkol z karty Úkoly v uživatelském rozhraní Úlohy následujícím způsobem:

  1. V rozevírací nabídce Typselectdbt.

  2. V rozevírací nabídce Source můžete selectpracovní prostor použít projekt dbt umístěný ve složce pracovního prostoru Azure Databricks nebo poskytovatele Gitu projektu umístěného ve vzdáleném úložišti Git.

    • Pokud selectpracovního prostoru , použijte k select adresáři Projectuzadaný navigátor souborů .

    • Pokud máte poskytovatele Gitselect, klikněte na Upravit a zadejte informace o Gitu pro úložiště projektu. Viz Použití Gitu s úlohami.

      Pokud váš projekt není v kořenovém adresáři úložiště, zadejte cestu k němu pomocí pole adresář projektu.

  3. Příkazy dbt ve výchozím nastavení používají příkazy dbt deps, dbt počáteční a dbt spuštění. Zadané příkazy se spouštějí v sekvenčním pořadí. Přidejte nebo upravte tato pole, remove, podle potřeby pro svůj pracovní postup. Podívejte se, co jsou příkazy dbt?

  4. V SQL Warehouseselect SQL Warehouse ke spuštění SQL vygenerovaného dbt. Rozevírací nabídka SQL Warehouse zobrazuje jenom bezserverové a profesionální sql warehouse.

  5. Zadejte sklad catalog. Pokud tuto sadu nenasadíte, použije se výchozí pracovní prostor.

  6. Zadejte sklad schema. Ve výchozím nastavení se používá schemadefault.

  7. Zvolte výpočetní prostředky rozhraní příkazového řádku dbt pro spuštění dbt Core. Databricks doporučuje používat bezserverové výpočetní prostředky pro úlohy nebo klasické úlohy nakonfigurované s clusterem s jedním uzlem.

  8. dbt-databricks Zadejte verzi úkolu.

    Pokud používáte Serverless výpočetní prostředky, použijte pole Prostředí a knihovny k select, úpravě nebo přidání nového prostředí. Viz Instalace závislostí poznámkového bloku.

    Pro všechny ostatní konfigurace výpočetních prostředků pole Závislé knihovny ve výchozím nastavení naplní dbt-databricks>=1.0.0,<2.0.0 . Odstraňte toto nastavení a přidejte knihovnu PyPi pro připnutí verze.

    Poznámka:

    Databricks doporučuje připnout úlohy dbt na konkrétní verzi balíčku dbt-databricks, aby se zajistila stejná verze pro vývojová a produkční spuštění. Databricks doporučuje verzi 1.6.0 nebo vyšší balíčku dbt-databricks.

  9. Klikněte na Vytvořit úkol.

Co jsou příkazy dbt?

Pole příkazů dbt umožňuje zadat příkazy ke spuštění pomocí rozhraní příkazového řádku dbt (CLI). Úplné podrobnosti o rozhraní příkazového řádku dbt najdete v dokumentaci k dbt.

V dokumentaci dbt vyhledejte příkazy podporované zadanou verzí dbt.

Předání možností příkazům dbt

Syntaxe výběru uzlu dbt umožňuje určit prostředky, které se mají zahrnout nebo vyloučit v určitém spuštění. Příkazy, jako run jsou a build přijímají příznaky včetně --select a --exclude. Úplný popis najdete v dokumentaci k přehledu syntaxe dbt.

Další příznaky konfigurace určují, jak dbt spouští váš projekt. Další informace o listdostupných příznacíchnaleznete v oficiální dokumentaci dbt v sekci Možnosti příkazového řádkucolumn.

Některé příznaky mají poziční argumenty. Některé argumenty pro příznaky jsou řetězce. Příklady a vysvětlení najdete v dokumentaci k dbt.

Předání proměnných příkazům dbt

Pomocí příznaku --vars předejte statickým nebo dynamickým values příkazům v příkazech dbt polích.

Do souboru JSON --varss oddělovači s jednoduchými uvozovkami . Všechny klíče a values ve formátu JSON musí být oddělené dvojitými uvozovkami, jako v následujícím příkladu:

dbt run --vars '{"volume_path": "/Volumes/path/to/data", "date": "2024/08/16"}'

Příklady parametrizovaných příkazů dbt

Při práci s dbt můžete odkazovat na úkol values, úlohu parametersa dynamickou úlohu parameters. se před spuštěním příkazu nahradí jako prostý text v poli příkazů dbt . Informace o předávání values mezi úkoly nebo odkazování na metadata úloh naleznete v tématu Parametrizovat úlohy.

V těchto příkladech se předpokládá, že je nakonfigurovaná úloha parameters:

Název parametru Hodnota parametru
volume_path /Volumes/path/to/data
table_name my_table
select_clause --select "tag:nightly"
dbt_refresh --full-refresh

Následující příklady ukazují platné způsoby, jak odkazovat na tyto parameters:

dbt run '{"volume_path": "{{job.parameters.volume_path}}"}'
dbt run --select "{{job.parameters.table_name}}"
dbt run {{job.parameters.select_clause}}
dbt run {{job.parameters.dbt_refresh}}
dbt run '{"volume_path": "{{job.parameters.volume_path}}"}' {{job.parameters.dbt_refresh}}

Můžete také odkazovat na dynamické parameters a úkol values, jako v následujících příkladech:

dbt run --vars '{"date": "{{job.start_time.iso_date}}"}'
dbt run --vars '{"sales_count": "{{tasks.sales_task.values.sales_count}}"}'