Sdílet prostřednictvím


dbt – úloha pro úlohy

Pomocí úlohy dbt nakonfigurujte a spusťte projekty dbt v Azure Databricks.

Důležité

Při spuštění úloh dbt databricks vloží DBT_ACCESS_TOKEN instanční objekt nakonfigurovaný v poli Spustit jako .

Konfigurace úlohy dbt

dbt Přidejte úkol z karty Úkoly v uživatelském rozhraní Úlohy následujícím způsobem:

  1. V rozevírací nabídce Typ vyberte dbt.

  2. V rozevírací nabídce Zdroj můžete vybrat Pracovní prostor pro použití projektu dbt umístěného ve složce pracovního prostoru Azure Databricks nebo Git poskytovatel pro projekt umístěný ve vzdáleném úložišti Git.

    • Pokud vyberete pracovní prostor, pomocí poskytnutého navigátoru vyberte adresář projektu.

    • Pokud vyberete poskytovatele Gitu, kliknutím na Upravit zadejte informace o Gitu pro úložiště projektu. Viz Použití Gitu s úlohami.

      Pokud váš projekt není v kořenovém adresáři úložiště, zadejte cestu k němu pomocí pole adresář projektu.

  3. Příkazy dbt ve výchozím nastavení používají příkazy dbt deps, dbt počáteční a dbt spuštění. Zadané příkazy se spouštějí v sekvenčním pořadí. Podle potřeby přidejte, odeberte nebo upravte tato pole pro pracovní postup. Podívejte se, co jsou příkazy dbt?

  4. V SQL warehousevyberte SQL warehouse ke spuštění SQL vygenerovaného dbt. Rozevírací nabídka SQL Warehouse zobrazuje jenom bezserverové a profesionální sql warehouse.

  5. Zadejte katalog Warehouse. Pokud tuto sadu nenasadíte, použije se výchozí pracovní prostor.

  6. Zadejte schéma skladu . Ve výchozím nastavení se používá schéma default.

  7. Zvolte výpočetní prostředky rozhraní příkazového řádku dbt pro spuštění dbt Core. Databricks doporučuje používat bezserverové výpočetní prostředky pro úlohy nebo klasické úlohy nakonfigurované s clusterem s jedním uzlem.

  8. dbt-databricks Zadejte verzi úkolu.

    Pokud používáte Serverless výpočetní prostředky, pomocí pole Prostředí a knihovny vyberte, upravte nebo přidejte nové prostředí. Viz Instalace závislostí poznámkového bloku.

    Pro všechny ostatní konfigurace výpočetních prostředků pole Závislé knihovny ve výchozím nastavení naplní dbt-databricks>=1.0.0,<2.0.0 . Odstraňte toto nastavení a přidejte knihovnu PyPi pro připnutí verze.

    Poznámka:

    Databricks doporučuje připnout úlohy dbt na konkrétní verzi balíčku dbt-databricks, aby se zajistila stejná verze pro vývojová a produkční spuštění. Databricks doporučuje verzi 1.6.0 nebo vyšší balíčku dbt-databricks.

  9. Klikněte na Vytvořit úkol.

Co jsou příkazy dbt?

Pole příkazů dbt umožňuje zadat příkazy ke spuštění pomocí rozhraní příkazového řádku dbt (CLI). Úplné podrobnosti o rozhraní příkazového řádku dbt najdete v dokumentaci k dbt.

V dokumentaci dbt vyhledejte příkazy podporované zadanou verzí dbt.

Předání možností příkazům dbt

Syntaxe výběru uzlu dbt umožňuje určit prostředky, které se mají zahrnout nebo vyloučit v určitém spuštění. Příkazy, jako run jsou a build přijímají příznaky včetně --select a --exclude. Úplný popis najdete v dokumentaci k přehledu syntaxe dbt.

Další příznaky konfigurace určují, jak dbt spouští váš projekt. Seznam dostupnýchpříznakůchch

Některé příznaky mají poziční argumenty. Některé argumenty pro příznaky jsou řetězce. Příklady a vysvětlení najdete v dokumentaci k dbt.

Předání proměnných příkazům dbt

Příznak --vars slouží k předávání statických nebo dynamických hodnot příkazům dbt polích.

Do souboru JSON --varss oddělovači s jednoduchými uvozovkami . Všechny klíče a hodnoty ve formátu JSON musí být oddělené dvojitými uvozovkami, jako v následujícím příkladu:

dbt run --vars '{"volume_path": "/Volumes/path/to/data", "date": "2024/08/16"}'

Příklady parametrizovaných příkazů dbt

Při práci s dbt můžete odkazovat na hodnoty úkolů, parametry úlohy a dynamické parametry úlohy. Hodnoty se před spuštěním příkazu nahradí prostým textem do příkazů dbt pole. Informace o předávání hodnot mezi úkoly nebo odkazování na metadata úloh naleznete v tématu Parametrizovat úlohy.

Tyto příklady předpokládají, že jsou nakonfigurované následující parametry úlohy:

Název parametru Hodnota parametru
volume_path /Volumes/path/to/data
table_name my_table
select_clause --select "tag:nightly"
dbt_refresh --full-refresh

Následující příklady ukazují platné způsoby, jak odkazovat na tyto parametry:

dbt run '{"volume_path": "{{job.parameters.volume_path}}"}'
dbt run --select "{{job.parameters.table_name}}"
dbt run {{job.parameters.select_clause}}
dbt run {{job.parameters.dbt_refresh}}
dbt run '{"volume_path": "{{job.parameters.volume_path}}"}' {{job.parameters.dbt_refresh}}

Můžete také odkazovat na dynamické parametry a hodnoty úkolů, jak je znázorněno v následujících příkladech:

dbt run --vars '{"date": "{{job.start_time.iso_date}}"}'
dbt run --vars '{"sales_count": "{{tasks.sales_task.values.sales_count}}"}'