dbt – úloha pro úlohy
Pomocí úlohy dbt nakonfigurujte a spusťte projekty dbt v Azure Databricks.
Důležité
Při spuštění úloh dbt databricks vloží DBT_ACCESS_TOKEN
instanční objekt nakonfigurovaný v poli Spustit jako .
Konfigurace úlohy dbt
dbt
Přidejte úkol z karty Úkoly v uživatelském rozhraní Úlohy následujícím způsobem:
V rozevírací nabídce Typ vyberte
dbt
.V rozevírací nabídce Zdroj můžete vybrat Pracovní prostor pro použití projektu dbt umístěného ve složce pracovního prostoru Azure Databricks nebo Git poskytovatel pro projekt umístěný ve vzdáleném úložišti Git.
Pokud vyberete pracovní prostor, pomocí poskytnutého navigátoru vyberte adresář projektu.
Pokud vyberete poskytovatele Gitu, kliknutím na Upravit zadejte informace o Gitu pro úložiště projektu. Viz Použití Gitu s úlohami.
Pokud váš projekt není v kořenovém adresáři úložiště, zadejte cestu k němu pomocí pole adresář projektu.
Příkazy dbt ve výchozím nastavení používají příkazy dbt deps, dbt počáteční a dbt spuštění. Zadané příkazy se spouštějí v sekvenčním pořadí. Podle potřeby přidejte, odeberte nebo upravte tato pole pro pracovní postup. Podívejte se, co jsou příkazy dbt?
V SQL warehousevyberte SQL warehouse ke spuštění SQL vygenerovaného dbt. Rozevírací nabídka SQL Warehouse zobrazuje jenom bezserverové a profesionální sql warehouse.
Zadejte katalog Warehouse
. Pokud tuto sadu nenasadíte, použije se výchozí pracovní prostor. Zadejte schéma skladu . Ve výchozím nastavení se používá schéma
default
.Zvolte výpočetní prostředky rozhraní příkazového řádku dbt pro spuštění dbt Core. Databricks doporučuje používat bezserverové výpočetní prostředky pro úlohy nebo klasické úlohy nakonfigurované s clusterem s jedním uzlem.
dbt-databricks
Zadejte verzi úkolu.Pokud používáte
Serverless
výpočetní prostředky, pomocí pole Prostředí a knihovny vyberte, upravte nebo přidejte nové prostředí. Viz Instalace závislostí poznámkového bloku.Pro všechny ostatní konfigurace výpočetních prostředků pole Závislé knihovny ve výchozím nastavení naplní
dbt-databricks>=1.0.0,<2.0.0
. Odstraňte toto nastavení a přidejte knihovnu PyPi pro připnutí verze.Poznámka:
Databricks doporučuje připnout úlohy dbt na konkrétní verzi balíčku dbt-databricks, aby se zajistila stejná verze pro vývojová a produkční spuštění. Databricks doporučuje verzi 1.6.0 nebo vyšší balíčku dbt-databricks.
Klikněte na Vytvořit úkol.
Co jsou příkazy dbt?
Pole příkazů dbt umožňuje zadat příkazy ke spuštění pomocí rozhraní příkazového řádku dbt (CLI). Úplné podrobnosti o rozhraní příkazového řádku dbt najdete v dokumentaci k dbt.
V dokumentaci dbt vyhledejte příkazy podporované zadanou verzí dbt.
Předání možností příkazům dbt
Syntaxe výběru uzlu dbt umožňuje určit prostředky, které se mají zahrnout nebo vyloučit v určitém spuštění. Příkazy, jako run
jsou a build
přijímají příznaky včetně --select
a --exclude
.
Úplný popis najdete v dokumentaci k přehledu syntaxe dbt.
Další příznaky konfigurace určují, jak dbt spouští váš projekt.
Některé příznaky mají poziční argumenty. Některé argumenty pro příznaky jsou řetězce. Příklady a vysvětlení najdete v dokumentaci k dbt.
Předání proměnných příkazům dbt
Příznak --vars
slouží k předávání statických nebo dynamických hodnot příkazům dbt polích.
Do souboru JSON --vars
s oddělovači s jednoduchými uvozovkami . Všechny klíče a hodnoty ve formátu JSON musí být oddělené dvojitými uvozovkami, jako v následujícím příkladu:
dbt run --vars '{"volume_path": "/Volumes/path/to/data", "date": "2024/08/16"}'
Příklady parametrizovaných příkazů dbt
Při práci s dbt můžete odkazovat na hodnoty úkolů, parametry úlohy a dynamické parametry úlohy. Hodnoty se před spuštěním příkazu nahradí prostým textem do příkazů dbt pole. Informace o předávání hodnot mezi úkoly nebo odkazování na metadata úloh naleznete v tématu Parametrizovat úlohy.
Tyto příklady předpokládají, že jsou nakonfigurované následující parametry úlohy:
Název parametru | Hodnota parametru |
---|---|
volume_path |
/Volumes/path/to/data |
table_name |
my_table |
select_clause |
--select "tag:nightly" |
dbt_refresh |
--full-refresh |
Následující příklady ukazují platné způsoby, jak odkazovat na tyto parametry:
dbt run '{"volume_path": "{{job.parameters.volume_path}}"}'
dbt run --select "{{job.parameters.table_name}}"
dbt run {{job.parameters.select_clause}}
dbt run {{job.parameters.dbt_refresh}}
dbt run '{"volume_path": "{{job.parameters.volume_path}}"}' {{job.parameters.dbt_refresh}}
Můžete také odkazovat na dynamické parametry a hodnoty úkolů, jak je znázorněno v následujících příkladech:
dbt run --vars '{"date": "{{job.start_time.iso_date}}"}'
dbt run --vars '{"sales_count": "{{tasks.sales_task.values.sales_count}}"}'