Referência de propriedades do Delta Live Tables
Esse artigo fornece uma referência para a especificação de configuração JSON das Tabelas Dinâmicas Delta e as propriedades da tabela no Azure Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:
Configurações de pipeline das Tabelas Dinâmicas Delta.
Campos |
---|
id Digite: string Um identificador globalmente exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado. |
name Digite: string Um nome amigável para esse pipeline. O nome pode ser usado para identificar trabalhos de pipeline na interface do usuário. |
configuration Digite: object Uma lista opcional de configurações a serem adicionadas à configuração do Spark no cluster que executará o pipeline. Essas configurações são lidas pelo runtime das Tabelas Dinâmicas Delta e estão disponíveis para consultas de pipeline por meio da configuração do Spark. Os elementos precisam ser formatados como pares key:value . |
libraries Digite: array of objects Uma matriz de notebooks que contém o código do pipeline e os artefatos necessários. |
clusters Digite: array of objects Uma matriz de especificações para os clusters executarem o pipeline. Se isso não for especificado, os pipelines selecionarão automaticamente uma configuração de cluster padrão para o pipeline. |
development Digite: boolean Um sinalizador que indica onde o pipeline deve ser executado Modo development ou production .O valor padrão é true |
notifications Digite: array of objects Uma matriz opcional de especificações para notificações por email quando uma atualização de pipeline é concluída, falha com um erro repetível, falha com um erro não repetível ou um fluxo falha. |
continuous Digite: boolean Um sinalizador que indica se o pipeline deve ser executado continuamente. O valor padrão é false . |
catalog Digite: string O nome do catálogo padrão para o pipeline, em que todos os conjuntos de dados e metadados do pipeline são publicados. Definir esse valor habilita o Catálogo do Unity para o pipeline. Se não for definido, o pipeline será publicado no metastore do Hive herdado usando o local especificado em storage .No modo de publicação herdado, especifica o catálogo que contém o esquema de destino em que todos os conjuntos de dados do pipeline atual são publicados. Confira Esquema LIVE (herdado). |
schema Digite: string O nome do esquema padrão para o pipeline, em que todos os conjuntos de dados e metadados para o pipeline são publicados por padrão. Confira Definir o catálogo de destino e o esquema. |
target (herdado)Digite: string O nome do esquema de destino em que todos os conjuntos de dados definidos no pipeline atual são publicados. Definir target em vez de schema configura o pipeline para usar o modo de publicação herdado. Confira Esquema LIVE (herdado). |
storage (herdado)Digite: string Um local no DBFS ou no armazenamento em nuvem em que os dados de saída e os metadados necessários para a execução do pipeline são armazenados. As tabelas e os metadados são armazenados em subdiretórios desse local. Quando a configuração storage não for especificada, o sistema usará como padrão local em dbfs:/pipelines/ .A configuração storage não pode ser alterada depois que um pipeline é criado. |
channel Digite: string A versão do runtime do Delta Live Tables a ser usada. Os valores com suporte são: - preview para testar seu pipeline com as próximas alterações na versão do runtime.- current para usar a versão de runtime atual.O campo channel é opcional. O valor padrão écurrent . O Databricks recomenda usar a versão atual do runtime para cargas de trabalho de produção. |
edition Tipo string A edição do produto Delta Live Tables para executar o pipeline. A configuração permite escolher a melhor edição do produto com base nos requisitos do pipeline: - CORE para executar cargas de trabalho de ingestão de fluxo.- PRO para executar cargas de trabalho de CDC (captura de dados de alterações) e de ingestão de fluxo.- ADVANCED para executar cargas de trabalho de ingestão de fluxo, cargas de trabalho de CDC e cargas de trabalho que exigem expectativas do Delta Live Tables para impor restrições de qualidade de dados.O campo edition é opcional. O valor padrão éADVANCED . |
photon Digite: boolean Um sinalizador que indica se O que é o Photon? deve ser usado para executar o pipeline. O Photon é o mecanismo Spark de alto desempenho do Azure Databricks. Os pipelines habilitados para ele são cobrados a uma taxa diferente dos pipelines que não se destinam ao Photon. O campo photon é opcional. O valor padrão é false . |
pipelines.maxFlowRetryAttempts Digite: int Se ocorrer uma falha recuperável durante a atualização do pipeline, este é o número máximo de tentativas para reiniciar o fluxo antes de falhar a atualização do pipeline Padrão: duas tentativas adicionais. Quando ocorre uma falha recorrente, o runtime do Delta Live Tables tenta executar o fluxo três vezes, incluindo a tentativa original. |
pipelines.numUpdateRetryAttempts Digite: int Se ocorrer uma falha recuperável durante uma atualização, esse será o número máximo de vezes para tentar a atualização novamente antes que ela falhe permanentemente. A repetição é executada como uma atualização completa. Esse parâmetro se aplica somente a pipelines em execução no modo de produção. Novas tentativas não serão feitas se o pipeline for executado no modo de desenvolvimento ou quando você executar uma atualização Validate .Padrão: – Cinco para fluxos de trabalho disparados. - Ilimitado para pipelines contínuos. |
Propriedades da tabela das Tabelas Dinâmicas Delta
Além das propriedades da tabela com suporte do Delta Lake, você pode definir as propriedades da tabela a seguir.
Propriedades da tabela |
---|
pipelines.autoOptimize.managed Padrão: true Habilita ou desabilita a otimização agendada automática desta tabela. |
pipelines.autoOptimize.zOrderCols Padrão: nenhum Uma cadeia de caracteres opcional que contém uma lista separada por vírgula de nomes de colunas para ordenar essa tabela pela ordem z. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Padrão: true Controla se uma atualização completa é permitida nessa tabela. |
Intervalo de gatilho de pipelines
Você pode especificar um intervalo de gatilho de pipeline para todo o pipeline das Tabelas Dinâmicas Delta ou como parte de uma declaração de conjunto de dados. Consulte Definir intervalo de gatilho para pipelines contínuos.
pipelines.trigger.interval |
---|
O padrão é baseado no tipo de fluxo: - Cinco segundos para consultas de streaming. - Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta. - Dez minutos para consultas completas quando algumas fontes de dados podem não ser Delta. O valor é um número mais a unidade de tempo. Estas são as unidades de tempo válidas: - second , seconds - minute , minutes - hour , hours - day , days Você pode usar a unidade no singular ou no plural ao definir o valor, por exemplo: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Atributos de cluster que não são configuráveis pelo usuário
Como o Delta Live Tables gerencia ciclos de vida de cluster, muitas configurações de cluster são definidas por Delta Live Tables e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.
Campos |
---|
cluster_name As Tabelas Dinâmicas Delta definem os nomes dos clusters usados para executar atualizações de pipeline. Esses nomes não podem ser substituídos. |
data_security_mode access_mode Esses valores são definidos automaticamente pelo sistema. |
spark_version Os clusters das Tabelas Dinâmicas Delta são executados em uma versão personalizada do Databricks Runtime que é atualizada continuamente para incluir os recursos mais recentes. A versão do Spark é agrupada com a versão do Databricks Runtime e não pode ser substituída. |
autotermination_minutes Como as Tabelas Dinâmicas Delta gerenciam o encerramento automático do cluster e a lógica de reutilização, o tempo de encerramento automático do cluster não pode ser substituído. |
runtime_engine Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente. |
effective_spark_version Esse valor é definido automaticamente pelo sistema. |
cluster_source Esse campo é definido pelo sistema e é somente leitura. |
docker_image Como as Tabelas Dinâmicas Delta gerenciam o ciclo de vida do cluster, você não pode usar um contêiner personalizado com clusters de pipeline. |
workload_type Esse valor é definido pelo sistema e não pode ser substituído. |