Sdílet prostřednictvím


Referenční informace k vlastnostem Delta Live Tables

Tento článek obsahuje referenční informace o specifikaci nastavení JSON pro Delta Live Tables a o vlastnostech table v Azure Databricks. Další podrobnosti o používání těchto různých vlastností a konfigurací najdete v následujících článcích:

konfigurace kanálů Delta Live Tables

Pole
id

Typ: string

Globálně jedinečný identifier pro tento kanál. Systém přiřadí identifier a nelze ho změnit.
name

Typ: string

Uživatelsky přívětivý název tohoto kanálu. Název lze použít k identifikaci úloh kanálu v uživatelském rozhraní.
storage

Typ: string

V umístění na DBFS nebo v cloudovém úložišti where jsou uložena výstupní data a metadata potřebná pro provádění kanálu. Tables a metadata jsou uloženy v podadresářích na tomto místě.

storage Pokud není nastavení zadáno, systém nastaví výchozí umístění v dbfs:/pipelines/.

Nastavení storage nelze po vytvoření kanálu změnit.
configuration

Typ: object

Volitelná list nastavení, která se mají přidat do konfigurace Spark clusteru, který spustí pipeline. Tato nastavení čte modul runtime Delta Live Tables a jsou dostupná pro dotazy na pipeline prostřednictvím konfigurace Sparku.

Prvky musí být formátované jako key:value páry.
libraries

Typ: array of objects

Pole poznámkových bloků obsahující kód kanálu a požadované artefakty.
clusters

Typ: array of objects

Pole specifikací pro clustery ke spuštění kanálu.

Pokud není zadaný, kanály se automaticky select výchozí konfiguraci clusteru pro kanál.
development

Typ: boolean

Příznak označující, jestli se má kanál spustit v
development nebo production režim.

Výchozí hodnota je true
notifications

Typ: array of objects

Volitelný seznam specifikací pro e-mailová oznámení, když se pipeline update dokončí, selže s opakovatelnou chybou, selže s neopakovatelnou chybou, nebo když selže tok.
continuous

Typ: boolean

Příznak označující, jestli se má kanál spouštět nepřetržitě.

Výchozí hodnota je false.
target

Typ: string

Název databáze pro zachování výstupních dat kanálu. Konfigurace target nastavení umožňuje zobrazit a dotazovat výstupní data kanálu z uživatelského rozhraní Azure Databricks.
channel

Typ: string

Verze modulu runtime Delta Live Tables, která se má použít. Podporované values jsou:

- preview a otestujte kanál s připravovanými změnami verze modulu runtime.
- current pro použití aktuální verze modulu runtime.

Pole channel je nepovinné. Výchozí hodnota je
current. Databricks doporučuje použít aktuální verzi modulu runtime pro produkční úlohy.
edition

Zadejte string

Produktová edice Delta Live Tables pro spuštění datového potrubí. Toto nastavení umožňuje zvolit nejlepší edici produktu na základě požadavků vašeho kanálu:

- CORE ke spouštění úloh ingestování streamování.
- PRO ke spouštění úloh ingestování streamování a změn zachytávání dat (CDC).
- ADVANCED ke spouštění úloh pro ingestování streamování, úloh CDC a úloh, které vyžadují očekávání Delta Live Tables k prosazení omezení kvality dat.

Pole edition je nepovinné. Výchozí hodnota je
ADVANCED.
photon

Typ: boolean

Příznak označující, jestli se má kanál spustit pomocí funkce Co je Photon? Photon je vysoce výkonný modul Spark pro Azure Databricks. Kanály s podporou foton se účtují jinou sazbou než kanály bez foton.

Pole photon je nepovinné. Výchozí hodnota je false.
pipelines.maxFlowRetryAttempts

Typ: int

Pokud během kanálu updatedojde k selhání, které lze opakovat, jedná se o maximální počet pokusů o opakování toku před tím, než selže kanál update.

Výchozí: Dva pokusy o opakování. Pokud dojde k opakované chybě, modul runtime Delta Live Tables se pokusí tok spustit třikrát, včetně původního pokusu.
pipelines.numUpdateRetryAttempts

Typ: int

Pokud během updatedojde k opakovanému selhání, je to maximální počet opakování update před trvalým selháním update. Opakování se spustí jako úplná update.

Tento parametr platí jenom pro kanály spuštěné v produkčním režimu. Opakování se neprovádí, pokud se kanál spustí v režimu vývoje nebo při spuštění Validateupdate.

Výchozí:

- Pět pro aktivované kanály.
- Neomezené pro průběžné kanály.

vlastnosti Delta Live Tablestable

Kromě table vlastností podporovaných službou Delta Lakemůžete set následující vlastnosti table.

Table vlastnosti
pipelines.autoOptimize.managed

Výchozí: true

Povolí nebo zakáže automatickou plánovanou optimalizaci tohoto table.
pipelines.autoOptimize.zOrderCols

Výchozí: Žádné

Volitelný řetězec obsahující seznam názvů column oddělených čárkami list pro určení z-order tohoto table. Například pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Výchozí: true

Určuje, zda je pro tento tablepovolen úplný refresh.

Interval triggeru kanálů

Můžete zadat interval spouštění pro celou pipeline Delta Live Tables nebo jako součást definice datové sady. Podívejte se na Set interval spuštění pro průběžné kanály.

pipelines.trigger.interval
Výchozí hodnota je založená na typu toku:

– Pět sekund pro dotazy streamování.
– Minuta pro úplné dotazy, když jsou všechna vstupní data ze zdrojů Delta.
– Deset minut pro úplné dotazy, pokud některé zdroje dat nemusí být delta.

Hodnota je číslo plus časová jednotka. Toto jsou platné časové jednotky:

- second, seconds
- minute, minutes
- hour, hours
- day, days

Při definování hodnoty můžete použít jednotné číslo nebo jednotku množného čísla, například:

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Atributy clusteru, které nejsou nastavené uživatelem

Vzhledem k tomu, že Delta Live Tables spravuje životní cyklus clusteru, mnoho nastavení clusteru je set službou Delta Live Tables a uživatelé je nemůžou konfigurovat ručně, a to buď v konfiguraci kanálu, nebo v zásadách clusteru používaných kanálem. Následující table uvádí tato nastavení a důvody, proč je nelze ručně set.

Pole
cluster_name

Delta Live Tables nastaví názvy clusterů používaných ke spouštění aktualizací potrubí. Tyto názvy nelze přepsat.
data_security_mode
access_mode

Tyto values jsou systémem automaticky set.
spark_version

Clustery Delta Live Tables běží na vlastní verzi databricks Runtime, která se průběžně aktualizuje tak, aby zahrnovala nejnovější funkce. Verze Sparku je součástí verze Databricks Runtime a nedá se přepsat.
autotermination_minutes

Vzhledem k tomu, že Delta Live Tables spravuje automatické ukončení clusteru a logiku opakovaného použití, není možné přepsat čas automatického ukončení clusteru.
runtime_engine

I když můžete toto pole řídit povolením funkce Photon pro váš pipeline, tuto hodnotu nemůžete přímo set.
effective_spark_version

Tato hodnota je systémem automaticky set.
cluster_source

Toto pole systém set a je jen pro čtení.
docker_image

Vzhledem k tomu, že Delta Live Tables spravuje životní cyklus clusteru, nemůžete použít vlastní kontejner s clustery kanálů.
workload_type

Tato hodnota je systémem set a nelze ji přepsat.