Referência de propriedades DLT

Artigo
03/05/2025

Este artigo fornece uma referência para a especificação de parâmetros JSON DLT e propriedades de tabelas no Azure Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:

configurações de processo DLT

Campos
`id` Tipo: `string` Um identificador global exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.
`name` Tipo: `string` Um nome amigável para esse pipeline. O nome pode ser usado para identificar trabalhos de pipeline na interface de utilizador.
`configuration` Tipo: `object` Uma lista opcional de configurações a serem adicionadas à configuração do Spark do cluster que executará o pipeline. Essas configurações são lidas pelo runtime DLT e estão disponíveis para consultas do pipeline por meio da configuração do Spark. Os elementos devem ser formatados como `key:value` pares.
`libraries` Tipo: `array of objects` Um conjunto de notebooks contendo o código do pipeline e os artefatos necessários.
`clusters` Tipo: `array of objects` Uma matriz de especificações para os clusters executarem o pipeline. Se isto não for especificado, os pipelines selecionarão automaticamente uma configuração de cluster padrão para o pipeline.
`development` Tipo: `boolean` Um indicador que indica se o pipeline deve ser executado em modo `development` ou `production`. O valor padrão é `true`
`notifications` Tipo: `array of objects` Uma lista opcional de especificações para notificações por e-mail quando uma atualização de pipeline é concluída, falha com um erro repetível, falha com um erro não repetível, ou quando um fluxo falha.
`continuous` Tipo: `boolean` Um sinalizador que indica se o pipeline deve ser executado continuamente. O valor padrão é `false`.
`catalog` Tipo: `string` O nome do catálogo padrão para a pipeline, onde todos os conjuntos de dados e metadados para a pipeline são publicados. A definição desse valor habilita o Unity Catalog para o pipeline. Caso não esteja configurado, o pipeline publica no metastore antigo do Hive usando o local especificado em `storage`. No modo de publicação herdado, especifica o catálogo que contém o esquema de destino onde todos os conjuntos de dados do pipeline atual são publicados. Veja o esquema AO VIVO (legado) .
`schema` Tipo: `string` O nome do esquema padrão para o pipeline, onde todos os conjuntos de dados e metadados para o pipeline são publicados por padrão. Consulte Defina o catálogo de destino e o esquema.
`target` (legado) Tipo: `string` O nome do esquema de destino onde todos os conjuntos de dados definidos no pipeline atual são publicados. Definir `target` em vez de `schema` configura o pipeline para usar o modo de publicação herdado. Consulte o esquema AO VIVO (legado).
`storage` (legado) Tipo: `string` Um local no DBFS ou armazenamento em nuvem onde os dados de saída e metadados necessários para a execução do pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local. Quando a configuração `storage` não for especificada, o sistema assumirá como padrão um local em `dbfs:/pipelines/`. A configuração `storage` não pode ser alterada depois que um pipeline é criado.
`channel` Tipo: `string` A versão do tempo de execução do DLT a ser utilizada. Os valores suportados são: - `preview` testar seu pipeline com as próximas alterações na versão de tempo de execução. - `current` para usar a versão de tempo de execução atual. O campo `channel` é opcional. O valor padrão é `current`. O Databricks recomenda utilizar a versão atual do runtime para cargas de trabalho de produção.
`edition` Tipo `string` A edição do produto DLT para executar o pipeline. Essa configuração permite que você escolha a melhor edição do produto com base nos requisitos do seu pipeline: - `CORE` executar cargas de trabalho de ingestão de streaming. - `PRO` executar ingestão de fluxo contínuo e captura de dados de alteração (CDC). - `ADVANCED` executar cargas de trabalho de ingestão de streaming, cargas de trabalho CDC e cargas de trabalho que exigem expectativas de DLT para impor restrições de qualidade de dados. O campo `edition` é opcional. O valor padrão é `ADVANCED`.
`photon` Tipo: `boolean` Um indicador que indica se deve usar What is Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho do Azure Databricks. Os pipelines com Photon são cobrados a uma taxa diferente dos pipelines sem Photon. O campo `photon` é opcional. O valor padrão é `false`.
`pipelines.maxFlowRetryAttempts` Tipo: `int` Se ocorrer uma falha repetida durante uma atualização de pipeline, esse é o número máximo de vezes para repetir um fluxo antes de falhar na atualização do pipeline Padrão: duas tentativas de repetição. Quando ocorre uma falha que pode ser repetida, o tempo de execução da DLT tenta executar o fluxo três vezes, incluindo a tentativa original.
`pipelines.numUpdateRetryAttempts` Tipo: `int` Se ocorrer uma falha repetida durante uma atualização, este é o número máximo de vezes para repetir a atualização antes de falhar permanentemente a atualização. A nova tentativa é executada como uma atualização completa. Este parâmetro aplica-se apenas a pipelines em execução no modo de produção. Não são realizadas tentativas repetidas se o pipeline for executado em modo de desenvolvimento ou ao executar uma atualização `Validate`. Padrão: - Cinco para gasodutos acionados. - Ilimitado para pipelines contínuos.

propriedades da tabela DLT

Além das propriedades de tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades de tabela.

Propriedades da tabela
`pipelines.autoOptimize.managed` Padrão: `true` Habilita ou desabilita a otimização agendada automaticamente desta tabela.
`pipelines.autoOptimize.zOrderCols` Padrão: Nenhum Uma cadeia de caracteres opcional que contém uma lista de nomes de colunas, separados por vírgulas, para ordenar esta tabela por. Por exemplo, `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Padrão: `true` Controla se uma atualização completa é permitida para esta tabela.

Intervalo de gatilho para pipelines

Você pode especificar um intervalo de ativação do pipeline para todo o pipeline DLT ou como parte de uma declaração de conjunto de dados. Consulte Definir intervalo de ativação para pipelines contínuos.

`pipelines.trigger.interval`
O padrão é baseado no tipo de fluxo: - Cinco segundos para consultas de streaming. - Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta. - dez minutos para consultas completas quando algumas fontes de dados podem ser não-Delta. O valor é um número mais a unidade de tempo. As unidades de tempo válidas são as seguintes: - `second`, `seconds` - `minute`, `minutes` - `hour`, `hours` - `day`, `days` Você pode usar a unidade singular ou plural ao definir o valor, por exemplo: - `{"pipelines.trigger.interval" : "1 hour"}` - `{"pipelines.trigger.interval" : "10 seconds"}` - `{"pipelines.trigger.interval" : "30 second"}` - `{"pipelines.trigger.interval" : "1 minute"}` - `{"pipelines.trigger.interval" : "10 minutes"}` - `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

O padrão é baseado no tipo de fluxo:

- Cinco segundos para consultas de streaming.
- Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta.
- dez minutos para consultas completas quando algumas fontes de dados podem ser não-Delta.

O valor é um número mais a unidade de tempo. As unidades de tempo válidas são as seguintes:

- second, seconds
- minute, minutes
- hour, hours
- day, days

Você pode usar a unidade singular ou plural ao definir o valor, por exemplo:

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Atributos de cluster que não são configuráveis pelo usuário

Como a DLT gerencia ciclos de vida de cluster, muitas configurações de cluster são definidas por DLT e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.

Campos
`cluster_name` A DLT define os nomes dos clusters usados para executar atualizações de pipeline. Estes nomes não podem ser substituídos.
`data_security_mode` `access_mode` Estes valores são definidos automaticamente pelo sistema.
`spark_version` Os clusters DLT são executados em uma versão personalizada do Databricks Runtime que é continuamente atualizada para incluir os recursos mais recentes. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída.
`autotermination_minutes` Como a DLT gere a lógica de reutilização e terminação automática do cluster, o tempo de terminação automática do cluster não pode ser alterado.
`runtime_engine` Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente.
`effective_spark_version` Este valor é definido automaticamente pelo sistema.
`cluster_source` Este campo é definido pelo sistema e é de leitura apenas.
`docker_image` Como a DLT gerencia o ciclo de vida do cluster, não é possível usar um contêiner personalizado com clusters de pipeline.
`workload_type` Esse valor é definido pelo sistema e não pode ser substituído.

Partilhar via

Referência de propriedades DLT

configurações de processo DLT

propriedades da tabela DLT

Intervalo de gatilho para pipelines

Atributos de cluster que não são configuráveis pelo usuário

Comentários

Recursos adicionais