Referenční informace k vlastnostem Delta Live Tables
Tento článek obsahuje referenční informace o specifikaci nastavení JSON pro Delta Live Tables a o vlastnostech table v Azure Databricks. Další podrobnosti o používání těchto různých vlastností a konfigurací najdete v následujících článcích:
konfigurace kanálů Delta Live Tables
Pole |
---|
id Typ: string Globálně jedinečný identifier pro tento kanál. Systém přiřadí identifier a nelze ho změnit. |
name Typ: string Uživatelsky přívětivý název tohoto kanálu. Název lze použít k identifikaci úloh kanálu v uživatelském rozhraní. |
storage Typ: string V umístění na DBFS nebo v cloudovém úložišti where jsou uložena výstupní data a metadata potřebná pro provádění kanálu. Tables a metadata jsou uloženy v podadresářích na tomto místě. storage Pokud není nastavení zadáno, systém nastaví výchozí umístění v dbfs:/pipelines/ .Nastavení storage nelze po vytvoření kanálu změnit. |
configuration Typ: object Volitelná list nastavení, která se mají přidat do konfigurace Spark clusteru, který spustí pipeline. Tato nastavení čte modul runtime Delta Live Tables a jsou dostupná pro dotazy na pipeline prostřednictvím konfigurace Sparku. Prvky musí být formátované jako key:value páry. |
libraries Typ: array of objects Pole poznámkových bloků obsahující kód kanálu a požadované artefakty. |
clusters Typ: array of objects Pole specifikací pro clustery ke spuštění kanálu. Pokud není zadaný, kanály se automaticky select výchozí konfiguraci clusteru pro kanál. |
development Typ: boolean Příznak označující, jestli se má kanál spustit v development nebo production režim.Výchozí hodnota je true |
notifications Typ: array of objects Volitelný seznam specifikací pro e-mailová oznámení, když se pipeline update dokončí, selže s opakovatelnou chybou, selže s neopakovatelnou chybou, nebo když selže tok. |
continuous Typ: boolean Příznak označující, jestli se má kanál spouštět nepřetržitě. Výchozí hodnota je false . |
target Typ: string Název databáze pro zachování výstupních dat kanálu. Konfigurace target nastavení umožňuje zobrazit a dotazovat výstupní data kanálu z uživatelského rozhraní Azure Databricks. |
channel Typ: string Verze modulu runtime Delta Live Tables, která se má použít. Podporované values jsou: - preview a otestujte kanál s připravovanými změnami verze modulu runtime.- current pro použití aktuální verze modulu runtime.Pole channel je nepovinné. Výchozí hodnota jecurrent . Databricks doporučuje použít aktuální verzi modulu runtime pro produkční úlohy. |
edition Zadejte string Produktová edice Delta Live Tables pro spuštění datového potrubí. Toto nastavení umožňuje zvolit nejlepší edici produktu na základě požadavků vašeho kanálu: - CORE ke spouštění úloh ingestování streamování.- PRO ke spouštění úloh ingestování streamování a změn zachytávání dat (CDC).- ADVANCED ke spouštění úloh pro ingestování streamování, úloh CDC a úloh, které vyžadují očekávání Delta Live Tables k prosazení omezení kvality dat.Pole edition je nepovinné. Výchozí hodnota jeADVANCED . |
photon Typ: boolean Příznak označující, jestli se má kanál spustit pomocí funkce Co je Photon? Photon je vysoce výkonný modul Spark pro Azure Databricks. Kanály s podporou foton se účtují jinou sazbou než kanály bez foton. Pole photon je nepovinné. Výchozí hodnota je false . |
pipelines.maxFlowRetryAttempts Typ: int Pokud během kanálu updatedojde k selhání, které lze opakovat, jedná se o maximální počet pokusů o opakování toku před tím, než selže kanál update. Výchozí: Dva pokusy o opakování. Pokud dojde k opakované chybě, modul runtime Delta Live Tables se pokusí tok spustit třikrát, včetně původního pokusu. |
pipelines.numUpdateRetryAttempts Typ: int Pokud během updatedojde k opakovanému selhání, je to maximální počet opakování update před trvalým selháním update. Opakování se spustí jako úplná update. Tento parametr platí jenom pro kanály spuštěné v produkčním režimu. Opakování se neprovádí, pokud se kanál spustí v režimu vývoje nebo při spuštění Validate update.Výchozí: - Pět pro aktivované kanály. - Neomezené pro průběžné kanály. |
vlastnosti Delta Live Tablestable
Kromě table vlastností podporovaných službou Delta Lakemůžete set následující vlastnosti table.
Table vlastnosti |
---|
pipelines.autoOptimize.managed Výchozí: true Povolí nebo zakáže automatickou plánovanou optimalizaci tohoto table. |
pipelines.autoOptimize.zOrderCols Výchozí: Žádné Volitelný řetězec obsahující seznam názvů column oddělených čárkami list pro určení z-order tohoto table. Například pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Výchozí: true Určuje, zda je pro tento tablepovolen úplný refresh. |
Interval triggeru kanálů
Můžete zadat interval spouštění pro celou pipeline Delta Live Tables nebo jako součást definice datové sady. Podívejte se na Set interval spuštění pro průběžné kanály.
pipelines.trigger.interval |
---|
Výchozí hodnota je založená na typu toku: – Pět sekund pro dotazy streamování. – Minuta pro úplné dotazy, když jsou všechna vstupní data ze zdrojů Delta. – Deset minut pro úplné dotazy, pokud některé zdroje dat nemusí být delta. Hodnota je číslo plus časová jednotka. Toto jsou platné časové jednotky: - second , seconds - minute , minutes - hour , hours - day , days Při definování hodnoty můžete použít jednotné číslo nebo jednotku množného čísla, například: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Atributy clusteru, které nejsou nastavené uživatelem
Vzhledem k tomu, že Delta Live Tables spravuje životní cyklus clusteru, mnoho nastavení clusteru je set službou Delta Live Tables a uživatelé je nemůžou konfigurovat ručně, a to buď v konfiguraci kanálu, nebo v zásadách clusteru používaných kanálem. Následující table uvádí tato nastavení a důvody, proč je nelze ručně set.
Pole |
---|
cluster_name Delta Live Tables nastaví názvy clusterů používaných ke spouštění aktualizací potrubí. Tyto názvy nelze přepsat. |
data_security_mode access_mode Tyto values jsou systémem automaticky set. |
spark_version Clustery Delta Live Tables běží na vlastní verzi databricks Runtime, která se průběžně aktualizuje tak, aby zahrnovala nejnovější funkce. Verze Sparku je součástí verze Databricks Runtime a nedá se přepsat. |
autotermination_minutes Vzhledem k tomu, že Delta Live Tables spravuje automatické ukončení clusteru a logiku opakovaného použití, není možné přepsat čas automatického ukončení clusteru. |
runtime_engine I když můžete toto pole řídit povolením funkce Photon pro váš pipeline, tuto hodnotu nemůžete přímo set. |
effective_spark_version Tato hodnota je systémem automaticky set. |
cluster_source Toto pole systém set a je jen pro čtení. |
docker_image Vzhledem k tomu, že Delta Live Tables spravuje životní cyklus clusteru, nemůžete použít vlastní kontejner s clustery kanálů. |
workload_type Tato hodnota je systémem set a nelze ji přepsat. |