dbt – úloha pro úlohy
Pomocí úlohy dbt nakonfigurujte a spusťte projekty dbt v Azure Databricks.
Důležité
Při spuštění úloh dbt databricks vloží DBT_ACCESS_TOKEN
instanční objekt nakonfigurovaný v poli Spustit jako .
Konfigurace úlohy dbt
dbt
Přidejte úkol z karty Úkoly v uživatelském rozhraní Úlohy následujícím způsobem:
V rozevírací nabídce Typselect
dbt
.V rozevírací nabídce Source můžete selectpracovní prostor použít projekt dbt umístěný ve složce pracovního prostoru Azure Databricks nebo poskytovatele Gitu projektu umístěného ve vzdáleném úložišti Git.
Pokud selectpracovního prostoru , použijte k select adresáři Projectuzadaný navigátor souborů .
Pokud máte poskytovatele Gitselect, klikněte na Upravit a zadejte informace o Gitu pro úložiště projektu. Viz Použití Gitu s úlohami.
Pokud váš projekt není v kořenovém adresáři úložiště, zadejte cestu k němu pomocí pole adresář projektu.
Příkazy dbt ve výchozím nastavení používají příkazy dbt deps, dbt počáteční a dbt spuštění. Zadané příkazy se spouštějí v sekvenčním pořadí. Přidejte nebo upravte tato pole, remove, podle potřeby pro svůj pracovní postup. Podívejte se, co jsou příkazy dbt?
V SQL Warehouseselect SQL Warehouse ke spuštění SQL vygenerovaného dbt. Rozevírací nabídka SQL Warehouse zobrazuje jenom bezserverové a profesionální sql warehouse.
Zadejte sklad catalog. Pokud tuto sadu nenasadíte, použije se výchozí pracovní prostor.
Zadejte sklad schema. Ve výchozím nastavení se používá schema
default
.Zvolte výpočetní prostředky rozhraní příkazového řádku dbt pro spuštění dbt Core. Databricks doporučuje používat bezserverové výpočetní prostředky pro úlohy nebo klasické úlohy nakonfigurované s clusterem s jedním uzlem.
dbt-databricks
Zadejte verzi úkolu.Pokud používáte
Serverless
výpočetní prostředky, použijte pole Prostředí a knihovny k select, úpravě nebo přidání nového prostředí. Viz Instalace závislostí poznámkového bloku.Pro všechny ostatní konfigurace výpočetních prostředků pole Závislé knihovny ve výchozím nastavení naplní
dbt-databricks>=1.0.0,<2.0.0
. Odstraňte toto nastavení a přidejte knihovnu PyPi pro připnutí verze.Poznámka:
Databricks doporučuje připnout úlohy dbt na konkrétní verzi balíčku dbt-databricks, aby se zajistila stejná verze pro vývojová a produkční spuštění. Databricks doporučuje verzi 1.6.0 nebo vyšší balíčku dbt-databricks.
Klikněte na Vytvořit úkol.
Co jsou příkazy dbt?
Pole příkazů dbt umožňuje zadat příkazy ke spuštění pomocí rozhraní příkazového řádku dbt (CLI). Úplné podrobnosti o rozhraní příkazového řádku dbt najdete v dokumentaci k dbt.
V dokumentaci dbt vyhledejte příkazy podporované zadanou verzí dbt.
Předání možností příkazům dbt
Syntaxe výběru uzlu dbt umožňuje určit prostředky, které se mají zahrnout nebo vyloučit v určitém spuštění. Příkazy, jako run
jsou a build
přijímají příznaky včetně --select
a --exclude
.
Úplný popis najdete v dokumentaci k přehledu syntaxe dbt.
Další příznaky konfigurace určují, jak dbt spouští váš projekt. Další informace o listdostupných příznacíchnaleznete v oficiální dokumentaci dbt v sekci Možnosti příkazového řádkucolumn.
Některé příznaky mají poziční argumenty. Některé argumenty pro příznaky jsou řetězce. Příklady a vysvětlení najdete v dokumentaci k dbt.
Předání proměnných příkazům dbt
Pomocí příznaku --vars
předejte statickým nebo dynamickým values příkazům v příkazech dbt polích.
Do souboru JSON --vars
s oddělovači s jednoduchými uvozovkami . Všechny klíče a values ve formátu JSON musí být oddělené dvojitými uvozovkami, jako v následujícím příkladu:
dbt run --vars '{"volume_path": "/Volumes/path/to/data", "date": "2024/08/16"}'
Příklady parametrizovaných příkazů dbt
Při práci s dbt můžete odkazovat na úkol values, úlohu parametersa dynamickou úlohu parameters.
V těchto příkladech se předpokládá, že je nakonfigurovaná úloha parameters:
Název parametru | Hodnota parametru |
---|---|
volume_path |
/Volumes/path/to/data |
table_name |
my_table |
select_clause |
--select "tag:nightly" |
dbt_refresh |
--full-refresh |
Následující příklady ukazují platné způsoby, jak odkazovat na tyto parameters:
dbt run '{"volume_path": "{{job.parameters.volume_path}}"}'
dbt run --select "{{job.parameters.table_name}}"
dbt run {{job.parameters.select_clause}}
dbt run {{job.parameters.dbt_refresh}}
dbt run '{"volume_path": "{{job.parameters.volume_path}}"}' {{job.parameters.dbt_refresh}}
Můžete také odkazovat na dynamické parameters a úkol values, jako v následujících příkladech:
dbt run --vars '{"date": "{{job.start_time.iso_date}}"}'
dbt run --vars '{"sales_count": "{{tasks.sales_task.values.sales_count}}"}'