Referência de propriedades DLT
Este artigo fornece uma referência para a especificação de parâmetros JSON DLT e propriedades de tabelas no Azure Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:
configurações de processo DLT
Campos |
---|
id Tipo: string Um identificador global exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado. |
name Tipo: string Um nome amigável para esse pipeline. O nome pode ser usado para identificar trabalhos de pipeline na interface de utilizador. |
configuration Tipo: object Uma lista opcional de configurações a serem adicionadas à configuração do Spark do cluster que executará o pipeline. Essas configurações são lidas pelo runtime DLT e estão disponíveis para consultas do pipeline por meio da configuração do Spark. Os elementos devem ser formatados como key:value pares. |
libraries Tipo: array of objects Um conjunto de notebooks contendo o código do pipeline e os artefatos necessários. |
clusters Tipo: array of objects Uma matriz de especificações para os clusters executarem o pipeline. Se isto não for especificado, os pipelines selecionarão automaticamente uma configuração de cluster padrão para o pipeline. |
development Tipo: boolean Um indicador que indica se o pipeline deve ser executado em modo development ou production .O valor padrão é true |
notifications Tipo: array of objects Uma lista opcional de especificações para notificações por e-mail quando uma atualização de pipeline é concluída, falha com um erro repetível, falha com um erro não repetível, ou quando um fluxo falha. |
continuous Tipo: boolean Um sinalizador que indica se o pipeline deve ser executado continuamente. O valor padrão é false . |
catalog Tipo: string O nome do catálogo padrão para a pipeline, onde todos os conjuntos de dados e metadados para a pipeline são publicados. A definição desse valor habilita o Unity Catalog para o pipeline. Caso não esteja configurado, o pipeline publica no metastore antigo do Hive usando o local especificado em storage .No modo de publicação herdado, especifica o catálogo que contém o esquema de destino onde todos os conjuntos de dados do pipeline atual são publicados. Veja o esquema AO VIVO (legado) . |
schema Tipo: string O nome do esquema padrão para o pipeline, onde todos os conjuntos de dados e metadados para o pipeline são publicados por padrão. Consulte Defina o catálogo de destino e o esquema. |
target (legado)Tipo: string O nome do esquema de destino onde todos os conjuntos de dados definidos no pipeline atual são publicados. Definir target em vez de schema configura o pipeline para usar o modo de publicação herdado. Consulte o esquema AO VIVO (legado). |
storage (legado)Tipo: string Um local no DBFS ou armazenamento em nuvem onde os dados de saída e metadados necessários para a execução do pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local. Quando a configuração storage não for especificada, o sistema assumirá como padrão um local em dbfs:/pipelines/ .A configuração storage não pode ser alterada depois que um pipeline é criado. |
channel Tipo: string A versão do tempo de execução do DLT a ser utilizada. Os valores suportados são: - preview testar seu pipeline com as próximas alterações na versão de tempo de execução.- current para usar a versão de tempo de execução atual.O campo channel é opcional. O valor padrão écurrent . O Databricks recomenda utilizar a versão atual do runtime para cargas de trabalho de produção. |
edition Tipo string A edição do produto DLT para executar o pipeline. Essa configuração permite que você escolha a melhor edição do produto com base nos requisitos do seu pipeline: - CORE executar cargas de trabalho de ingestão de streaming.- PRO executar ingestão de fluxo contínuo e captura de dados de alteração (CDC).- ADVANCED executar cargas de trabalho de ingestão de streaming, cargas de trabalho CDC e cargas de trabalho que exigem expectativas de DLT para impor restrições de qualidade de dados.O campo edition é opcional. O valor padrão éADVANCED . |
photon Tipo: boolean Um indicador que indica se deve usar What is Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho do Azure Databricks. Os pipelines com Photon são cobrados a uma taxa diferente dos pipelines sem Photon. O campo photon é opcional. O valor padrão é false . |
pipelines.maxFlowRetryAttempts Tipo: int Se ocorrer uma falha repetida durante uma atualização de pipeline, esse é o número máximo de vezes para repetir um fluxo antes de falhar na atualização do pipeline Padrão: duas tentativas de repetição. Quando ocorre uma falha que pode ser repetida, o tempo de execução da DLT tenta executar o fluxo três vezes, incluindo a tentativa original. |
pipelines.numUpdateRetryAttempts Tipo: int Se ocorrer uma falha repetida durante uma atualização, este é o número máximo de vezes para repetir a atualização antes de falhar permanentemente a atualização. A nova tentativa é executada como uma atualização completa. Este parâmetro aplica-se apenas a pipelines em execução no modo de produção. Não são realizadas tentativas repetidas se o pipeline for executado em modo de desenvolvimento ou ao executar uma atualização Validate .Padrão: - Cinco para gasodutos acionados. - Ilimitado para pipelines contínuos. |
propriedades da tabela DLT
Além das propriedades de tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades de tabela.
Propriedades da tabela |
---|
pipelines.autoOptimize.managed Padrão: true Habilita ou desabilita a otimização agendada automaticamente desta tabela. |
pipelines.autoOptimize.zOrderCols Padrão: Nenhum Uma cadeia de caracteres opcional que contém uma lista de nomes de colunas, separados por vírgulas, para ordenar esta tabela por. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Padrão: true Controla se uma atualização completa é permitida para esta tabela. |
Intervalo de gatilho para pipelines
Você pode especificar um intervalo de ativação do pipeline para todo o pipeline DLT ou como parte de uma declaração de conjunto de dados. Consulte Definir intervalo de ativação para pipelines contínuos.
pipelines.trigger.interval |
---|
O padrão é baseado no tipo de fluxo: - Cinco segundos para consultas de streaming. - Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta. - dez minutos para consultas completas quando algumas fontes de dados podem ser não-Delta. O valor é um número mais a unidade de tempo. As unidades de tempo válidas são as seguintes: - second , seconds - minute , minutes - hour , hours - day , days Você pode usar a unidade singular ou plural ao definir o valor, por exemplo: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Atributos de cluster que não são configuráveis pelo usuário
Como a DLT gerencia ciclos de vida de cluster, muitas configurações de cluster são definidas por DLT e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.
Campos |
---|
cluster_name A DLT define os nomes dos clusters usados para executar atualizações de pipeline. Estes nomes não podem ser substituídos. |
data_security_mode access_mode Estes valores são definidos automaticamente pelo sistema. |
spark_version Os clusters DLT são executados em uma versão personalizada do Databricks Runtime que é continuamente atualizada para incluir os recursos mais recentes. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída. |
autotermination_minutes Como a DLT gere a lógica de reutilização e terminação automática do cluster, o tempo de terminação automática do cluster não pode ser alterado. |
runtime_engine Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente. |
effective_spark_version Este valor é definido automaticamente pelo sistema. |
cluster_source Este campo é definido pelo sistema e é de leitura apenas. |
docker_image Como a DLT gerencia o ciclo de vida do cluster, não é possível usar um contêiner personalizado com clusters de pipeline. |
workload_type Esse valor é definido pelo sistema e não pode ser substituído. |