Condividi tramite


Informazioni di riferimento sulle proprietà delle tabelle Delta Live

Questo articolo fornisce informazioni di riferimento sulle specifiche delle impostazioni JSON delle tabelle live Delta e sulle proprietà della tabella in Azure Databricks. Per altre informazioni sull'uso di queste varie proprietà e configurazioni, vedere i seguenti articoli:

Configurazioni della Pipeline delle Tabelle Live Delta

Campi
id

Tipo: string

Identificatore univoco globale per questa pipeline. L'identificatore viene assegnato dal sistema e non può essere modificato.
name

Tipo: string

Nome semplice da usare per questa pipeline. Il nome può essere usato per identificare i processi della pipeline nell'interfaccia utente.
storage

Tipo: string

Posizione in DBFS o nel cloud dove vengono archiviati i dati di output e i metadati necessari per l'esecuzione della pipeline. Le tabelle e i metadati vengono archiviati nelle sottodirectory di questo percorso.

Quando l'impostazione storage non è specificata, per impostazione predefinita il sistema verrà impostato su un percorso in dbfs:/pipelines/.

L'impostazione storage non può essere modificata dopo la creazione di una pipeline.
configuration

Tipo: object

Elenco facoltativo di impostazioni da aggiungere alla configurazione Spark del cluster che eseguirà la pipeline. Queste impostazioni sono lette dal runtime delle tabelle live Delta e sono disponibili per le query della pipeline tramite la configurazione di Spark.

Gli elementi devono essere formattati come coppie key:value.
libraries

Tipo: array of objects

Matrice di notebook contenenti il codice della pipeline e gli artefatti necessari.
clusters

Tipo: array of objects

Matrice di specifiche per i cluster per l'esecuzione della pipeline.

Se non viene specificato, le pipeline selezioneranno automaticamente una configurazione cluster predefinita per la pipeline.
development

Tipo: boolean

Flag che indica se eseguire la pipeline in
modalità development o production.

Il valore predefinito è true.
notifications

Tipo: array of objects

Una matrice facoltativa di specifiche per le notifiche tramite posta elettronica al termine di un aggiornamento della pipeline, ha esito negativo con un errore riprovabile, ha esito negativo con un errore non ritentabile o un flusso non riesce.
continuous

Tipo: boolean

Flag che indica se eseguire la pipeline continuativamente.

Il valore predefinito è false.
target

Tipo: string

Nome di un database per rendere persistenti i dati di output della pipeline. La configurazione dell'impostazione target consente di visualizzare ed eseguire query sui dati di output della pipeline dall'interfaccia utente di Azure Databricks.
channel

Tipo: string

Versione del runtime di Delta Live Tables da utilizzare. I valori supportati sono:

- preview per testare la pipeline con le future modifiche alla versione di runtime.
- current per usare la versione corrente del runtime.

Il campo channel è facoltativo. Il valore predefinito è
current. Databricks consiglia l’uso della versione corrente del runtime per i carichi di lavoro di produzione.
edition

Digitare string

Edizione del prodotto Delta Live Tables necessaria per eseguire la pipeline. Questa impostazione consente di scegliere l'edizione del prodotto migliore in base ai requisiti della pipeline:

- CORE per eseguire carichi di lavoro di inserimento in streaming.
- PRO per eseguire carichi di lavoro di inserimento e change data capture (CDC) in streaming.
- ADVANCED per eseguire carichi di lavoro di inserimento in streaming, carichi di lavoro CDC e carichi di lavoro che richiedono aspettative di tabelle Live Delta per applicare vincoli di qualità dei dati.

Il campo edition è facoltativo. Il valore predefinito è
ADVANCED.
photon

Tipo: boolean

Flag che indica se usare Che casa è Photon? per eseguire la pipeline. Photon è il motore Spark ad alte prestazioni di Azure Databricks. Le pipeline abilitate per Photon vengono fatturate a una tariffa diversa rispetto alle pipeline non Photon.

Il campo photon è facoltativo. Il valore predefinito è false.
pipelines.maxFlowRetryAttempts

Tipo: int

Se si verifica un errore riprovabile durante un aggiornamento della pipeline, questo è il numero massimo di volte in cui ripetere il flusso prima che l'aggiornamento della pipeline fallisca.

Impostazione predefinita: due tentativi di riprova. Quando si verifica un errore ripetibile, il runtime di Delta Live Tables tenta di eseguire il flusso tre volte, compreso il tentativo originale.
pipelines.numUpdateRetryAttempts

Tipo: int

Se si verifica un errore riprovabile durante un aggiornamento, questo è il numero massimo di tentativi dell'aggiornamento prima di dichiararlo definitivamente fallito. Il nuovo tentativo viene eseguito come aggiornamento completo.

Questo parametro si applica solo alle pipeline in esecuzione in modalità di produzione. I ritentativi non vengono eseguiti se la pipeline viene eseguita in modalità di sviluppo o quando viene eseguito un aggiornamento Validate.

Predefinito:

- Cinque per le pipeline attivate.
- Illimitato per le pipeline continue.

proprietà della tabella Delta Live Tables

Oltre alle proprietà della tabella supportate da Delta Lake, è possibile impostare le proprietà della tabella seguenti.

Proprietà della tabella
pipelines.autoOptimize.managed

Impostazione predefinita: true

Abilita o disabilita l'ottimizzazione programmata automaticamente di questa tabella.
pipelines.autoOptimize.zOrderCols

Impostazione predefinita: nessuna

Stringa facoltativa contenente un elenco di nomi di colonne separati da virgole per ordinare questa tabella in base all'ordine z. Ad esempio, pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Impostazione predefinita: true

Controlla se per questa tabella è consentito un aggiornamento completo.

Intervallo di trigger delle pipeline

È possibile specificare un intervallo di trigger della pipeline per l'intera pipeline di Delta Live Tables o come parte di una dichiarazione del set di dati. Consultare per impostare l'intervallo di trigger per le pipeline continue.

pipelines.trigger.interval
Il valore predefinito è basato sul tipo di flusso:

- Cinque secondi per le query di streaming.
- Un minuto per le query complete quando tutti i dati di input provengono da origini Delta.
- Dieci minuti per le query complete quando alcune origini dati potrebbero non essere Delta.

Il valore è un numero più l'unità temporale. Di seguito sono riportate le unità di tempo valide:

- second, seconds
- minute, minutes
- hour, hours
- day, days

È possibile usare l'unità singolare o plurale quando si definisce il valore, ad esempio:

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Attributi del cluster non impostabili dall'utente

Poiché le Tabelle Delta Live gestiscono i cicli di vita del cluster, molte impostazioni del cluster vengono impostate dalle Tabelle Delta Live e non possono essere configurate manualmente dagli utenti, né nella configurazione della pipeline né nei criteri di cluster usati in una pipeline. Nella tabella seguente sono elencate queste impostazioni e il motivo per cui non possono essere impostate manualmente.

Campi
cluster_name

Delta Live Tables imposta i nomi dei cluster usati per eseguire gli aggiornamenti della pipeline. Questi nomi non possono essere sottoposti a override.
data_security_mode
access_mode

Questi valori vengono impostati automaticamente dal sistema.
spark_version

I cluster Delta Live Tables vengono eseguiti in una versione personalizzata di Databricks Runtime che viene continuamente aggiornata per includere le funzionalità più recenti. La versione di Spark è in bundle con la versione di Databricks Runtime e non può essere sottoposta a override.
autotermination_minutes

Poiché Delta Live Tables gestisce la terminazione automatica e la logica di riutilizzo del cluster, non è possibile eseguire l'override del tempo di terminazione automatica del cluster.
runtime_engine

Anche se è possibile controllare questo campo abilitando Photon per la pipeline, non è possibile impostare direttamente questo valore.
effective_spark_version

Questo valore viene impostato automaticamente dal sistema.
cluster_source

Questo campo viene impostato dal sistema ed è di sola lettura.
docker_image

Poiché Delta Live Tables gestisce il ciclo di vita del cluster, non è possibile usare un contenitore personalizzato con cluster di pipeline.
workload_type

Questo valore viene impostato dal sistema e non può essere sottoposto a override.