Partilhar via


Referência de propriedades do Delta Live Tables

Este artigo fornece uma referência para a especificação de configuração JSON de Tabelas Delta Live e propriedades de tabela no Azure Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:

Configurações de pipeline do Delta Live Tables

Campos
id

Tipo: string

Um identificador global exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.
name

Tipo: string

Um nome amigável para esse pipeline. O nome pode ser usado para identificar trabalhos de pipeline na interface do usuário.
configuration

Tipo: object

Uma lista opcional de configurações a serem adicionadas à configuração do Spark do cluster que executará o pipeline. Essas configurações são lidas pelo tempo de execução do Delta Live Tables e estão disponíveis para consultas de pipeline por meio da configuração do Spark.

Os elementos devem ser formatados como key:value pares.
libraries

Tipo: array of objects

Uma matriz de blocos de anotações contendo o código do pipeline e os artefatos necessários.
clusters

Tipo: array of objects

Uma matriz de especificações para os clusters executarem o pipeline.

Caso isto não seja especificado, os pipelines selecionarão automaticamente uma configuração de cluster padrão para o pipeline.
development

Tipo: boolean

Um sinalizador que indica se o pipeline deve ser executado em
development ou production modo.

O valor predefinido é true
notifications

Tipo: array of objects

Uma matriz opcional de especificações para notificações por e-mail quando uma atualização de pipeline é concluída, falha com um erro que pode ser repetido, falha com um erro não reprovável ou um fluxo falha.
continuous

Tipo: boolean

Um sinalizador que indica se o pipeline deve ser executado continuamente.

O valor predefinido é false.
**catalog **

Tipo: string

O nome do catálogo padrão do pipeline, onde são publicados todos os conjuntos de dados e metadados do pipeline. A definição desse valor habilita o Unity Catalog para o pipeline.

Se não estiver definido, o pipeline publica no metastore herdado do Hive, usando o local especificado em storage.

No modo de publicação herdado, especifica o catálogo que contém o esquema de destino onde todos os conjuntos de dados do pipeline atual são publicados. Veja o esquema LIVE (legado) .
**schema **

Tipo: string

O nome do esquema padrão para o pipeline, onde todos os conjuntos de dados e metadados para o pipeline são publicados por padrão. Veja Defina o catálogo de destino e o esquema.
** target (legado) **

Tipo: string

O nome do esquema de destino onde todos os conjuntos de dados definidos no pipeline atual são publicados.

Definir target em vez de schema configura o pipeline para usar o modo de publicação herdado. Consulte o esquema LIVE (legado).
** storage (herança) **

Tipo: string

Um local no DBFS ou armazenamento em nuvem onde os dados de saída e metadados necessários para a execução do pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local.

Quando a storage configuração não for especificada, o sistema assumirá como padrão um local em dbfs:/pipelines/.

A storage configuração não pode ser alterada depois que um pipeline é criado.
channel

Tipo: string

A versão do tempo de execução do Delta Live Tables a ser usada. Os valores suportados são:

- preview para testar seu pipeline com alterações futuras na versão de tempo de execução.
- current para usar a versão de tempo de execução atual.

O campo channel é opcional. O valor padrão é
current. O Databricks recomenda o uso da versão atual do tempo de execução para cargas de trabalho de produção.
edition

Escreva string

A edição do produto Delta Live Tables para executar o pipeline. Essa configuração permite que você escolha a melhor edição do produto com base nos requisitos do seu pipeline:

- CORE para executar cargas de trabalho de ingestão de streaming.
- PRO para executar cargas de trabalho CDC (streaming ingest and change data capture).
- ADVANCED executar tarefas de ingestão de streaming, trabalhos CDC e tarefas que requerem expectativas das Delta Live Tables para impor restrições de qualidade de dados.

O campo edition é opcional. O valor padrão é
ADVANCED.
photon

Tipo: boolean

Um sinalizador que indica se deve ser usado O que é Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho do Azure Databricks. Os pipelines habilitados para Photon são cobrados a uma taxa diferente dos pipelines não Photon.

O campo photon é opcional. O valor predefinido é false.
pipelines.maxFlowRetryAttempts

Tipo: int

Se ocorrer uma falha recuperável durante uma atualização de pipeline, este é o número máximo de vezes para tentar novamente um fluxo antes de falhar a atualização do pipeline.

Padrão: duas tentativas de repetição. Quando ocorre uma falha recuperável, o runtime do Delta Live Tables tenta executar o fluxo três vezes, incluindo a tentativa original.
pipelines.numUpdateRetryAttempts

Tipo: int

Se ocorrer uma falha repetida durante uma atualização, este é o número máximo de vezes para repetir a atualização antes de falhar permanentemente a atualização. A nova tentativa é executada como uma atualização completa.

Este parâmetro aplica-se apenas a pipelines que estão a correr no modo de produção. Não são feitas tentativas repetidas se o pipeline for executado em modo de desenvolvimento ou ao executar uma atualização Validate.

Padrão:

- Cinco para gasodutos acionados.
- Ilimitado para pipelines contínuos.

propriedades da tabela Delta Live Tables

Além das propriedades de tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades de tabela.

Propriedades da tabela
pipelines.autoOptimize.managed

Predefinição: true

Habilita ou desabilita a otimização agendada automaticamente desta tabela.
pipelines.autoOptimize.zOrderCols

Padrão: Nenhum

Uma string opcional que contém uma lista separada por vírgulas de nomes de colunas para ordenar esta tabela por ordem de z. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Predefinição: true

Controla se uma atualização completa é permitida para esta tabela.

Intervalo de gatilho de pipelines

Você pode especificar um intervalo de gatilho de pipeline para todo o pipeline Delta Live Tables ou como parte de uma declaração de conjunto de dados. Consulte Definir intervalo de gatilho para pipelines contínuos.

pipelines.trigger.interval
O padrão é baseado no tipo de fluxo:

- Cinco segundos para consultas de streaming.
- Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta.
- dez minutos para consultas completas quando algumas fontes de dados podem ser não-Delta.

O valor é um número mais a unidade de tempo. As unidades de tempo válidas são as seguintes:

- second, seconds
- minute, minutes
- hour, hours
- day, days

Você pode usar a unidade singular ou plural ao definir o valor, por exemplo:

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Atributos de cluster que não são configuráveis pelo usuário

Como o Delta Live Tables gerencia ciclos de vida de cluster, muitas configurações de cluster são definidas pelo Delta Live Tables e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.

Campos
cluster_name

Delta Live Tables define os nomes dos clusters usados para executar atualizações de pipeline. Estes nomes não podem ser substituídos.
data_security_mode
access_mode

Estes valores são definidos automaticamente pelo sistema.
spark_version

Os clusters Delta Live Tables são executados em uma versão personalizada do Databricks Runtime que é continuamente atualizada para incluir os recursos mais recentes. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída.
autotermination_minutes

Como o Delta Live Tables gerencia a lógica de reutilização e terminação automática do cluster, o tempo de terminação automática do cluster não pode ser substituído.
runtime_engine

Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente.
effective_spark_version

Este valor é definido automaticamente pelo sistema.
cluster_source

Este campo é definido pelo sistema e é somente leitura.
docker_image

Como o Delta Live Tables gerencia o ciclo de vida do cluster, não é possível usar um contêiner personalizado com clusters de pipeline.
workload_type

Esse valor é definido pelo sistema e não pode ser substituído.