Referencia de propiedades de Delta Live Tables
En este artículo se proporciona una referencia para la especificación de configuración JSON de Delta Live Tables y las propiedades de tabla en Azure Databricks. Para obtener más información sobre el uso de estas diversas propiedades y configuraciones, consulte los siguientes artículos:
Configuraciones de canalización de Delta Live Tables
Fields |
---|
id Escriba: string Identificador único global de esta canalización. El sistema asigna el identificador y no se puede cambiar. |
name Tipo: string Un nombre descriptivo para esta canalización. El nombre se puede usar para identificar los trabajos de canalización en la interfaz de usuario. |
storage Tipo: string Ubicación en DBFS o almacenamiento en la nube donde se almacenan los datos de salida y los metadatos necesarios para la ejecución de la canalización. Las tablas y los metadatos se almacenan en subdirectorios de esta ubicación. Cuando no se especifica el valor storage , el sistema lo establecerá de forma predeterminada en una ubicación en dbfs:/pipelines/ .El valor storage no se puede cambiar después de crear una canalización. |
configuration Tipo: object Una lista opcional de opciones para agregar a la configuración de Spark del clúster que ejecutará la canalización. Estos valores se leen en el entorno de ejecución de Delta Live Tables y están disponible para las consultas de canalización mediante la configuración de Spark. Los elementos deben tener el formato de pares de key:value . |
libraries Tipo: array of objects Matriz de cuadernos que contiene el código de canalización y los artefactos necesarios. |
clusters Tipo: array of objects Matriz de especificaciones para que los clústeres ejecuten la canalización. Si no se especifica, las canalizaciones seleccionarán automáticamente una configuración de clúster predeterminada para la canalización. |
development Tipo: boolean Marca que indica si se debe ejecutar la canalización en modo development o production .El valor predeterminado es true |
notifications Tipo: array of objects Una matriz opcional de especificaciones para las notificaciones por correo electrónico cuando se completa una actualización de canalización, produce un error que se puede reintentar, se produce un error que no se puede reintentar o se produce un error en un flujo. |
continuous Tipo: boolean Marca que indica si se debe ejecutar la canalización continuamente. El valor predeterminado es false . |
target Tipo: string Nombre de una base de datos para conservar los datos de salida de la canalización. La configuración de target permite ver y consultar los datos de salida de la canalización desde la interfaz de usuario de Azure Databricks. |
channel Tipo: string Versión del entorno de ejecución de Delta Live Tables que se va a usar. Los valores admitidos son: - preview para probar la canalización con los próximos cambios en la versión del entorno de ejecución.- current para usar la versión actual del entorno de ejecución.El campo channel es opcional. El valor predeterminado escurrent . Databricks recomienda usar la versión actual del entorno de ejecución para cargas de trabajo de producción. |
edition Escriba string La edición del producto Delta Live Tables para ejecutar la canalización. Esta configuración le permite elegir la mejor edición del producto en función de los requisitos de la canalización: - CORE para ejecutar cargas de trabajo de ingesta de streaming.- PRO para ejecutar cargas de trabajo de ingesta de streaming y captura de datos modificados (CDC).- ADVANCED para ejecutar cargas de trabajo de ingesta de streaming, cargas de trabajo CDC y cargas de trabajo que requieren expectativas de Delta Live Tables para aplicar restricciones de calidad de datos.El campo edition es opcional. El valor predeterminado esADVANCED . |
photon Tipo: boolean Una marca que indica si se debe usar Photon para ejecutar la canalización. Photon es el motor spark de alto rendimiento de Azure Databricks. Las canalizaciones habilitadas con Photon se facturan con una tarifa diferente a la de las canalizaciones sin Photon. El campo photon es opcional. El valor predeterminado es false . |
pipelines.maxFlowRetryAttempts Tipo: int El número máximo de intentos para volver a intentar un flujo antes de que se genere un error en la actualización de una canalización cuando ocurre un error que se puede volver a intentar. El valor predeterminado es dos. De manera predeterminada, cuando se produce un error que se puede volver a intentar, el tiempo de ejecución de Delta Live Tables intenta ejecutar el flujo tres veces, incluido el intento original. |
pipelines.numUpdateRetryAttempts Tipo: int El número máximo de intentos para volver a intentar una actualización antes de considerarla como un error cuando se produce un error que se puede volver a intentar. El reintento se ejecuta como una actualización completa. El valor predeterminado es cinco. Este parámetro solo se aplica a las actualizaciones desencadenadas que se ejecutan en modo de producción. No hay ningún reintento cuando la canalización se ejecuta en modo de desarrollo. |
Propiedades de la tabla Delta Live Tables
Además de las propiedades de tabla que admite Delta Lake, puede establecer las siguientes propiedades de tabla.
Propiedades de tabla |
---|
pipelines.autoOptimize.managed Valor predeterminado: true Habilita o deshabilita la optimización programada automáticamente de esta tabla. |
pipelines.autoOptimize.zOrderCols Valor predeterminado: ninguno Una cadena opcional que contiene una lista de nombres de columna separados por comas para ordenar esta tabla siguiendo el orden Z. Por ejemplo: pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Valor predeterminado: true Controla si se permite una actualización completa para esta tabla. |
Intervalo del desencadenador de canalizaciones
Puede especificar un intervalo de desencadenador de canalización para toda la canalización de Delta Live Tables o como parte de una declaración de conjunto de datos. Consulte Establecimiento del intervalo de desencadenador para canalizaciones continuas.
pipelines.trigger.interval |
---|
El valor predeterminado se basa en el tipo de flujo: - Cinco segundos para las consultas de streaming. - Un minuto para las consultas completas cuando todos los datos de entrada son de orígenes de Delta. - Diez minutos para las consultas completas cuando algunos orígenes de datos pueden no ser de Delta. El valor es un número más la unidad de tiempo. Las unidades de tiempo válidas son: - second , seconds - minute , minutes - hour , hours - day , days Puede usar la unidad en singular o plural cuando define el valor, por ejemplo: - {"pipelines.trigger.interval" : "1 hour"} - {"pipelines.trigger.interval" : "10 seconds"} - {"pipelines.trigger.interval" : "30 second"} - {"pipelines.trigger.interval" : "1 minute"} - {"pipelines.trigger.interval" : "10 minutes"} - {"pipelines.trigger.interval" : "10 minute"} |
Atributos de clúster que no son configurables por el usuario
Dado que Delta Live Tables administra los ciclos de vida del clúster, los usuarios no pueden configurar manualmente muchas opciones de configuración del clúster, ya sea en una configuración de canalización o en una directiva de clúster usada por una canalización. En la tabla siguiente se enumeran estas opciones de configuración y por qué no se pueden establecer manualmente.
Campos |
---|
cluster_name Delta Live Tables establece los nombres de los clústeres usados para ejecutar actualizaciones de canalización. Estos nombres no se pueden invalidar. |
data_security_mode access_mode El sistema establece automáticamente estos valores. |
spark_version Los clústeres de Delta Live Tables se ejecutan en una versión personalizada de Databricks Runtime que se actualiza continuamente para incluir las características más recientes. La versión de Spark se incluye con la versión de Databricks Runtime y no se puede invalidar. |
autotermination_minutes Dado que Delta Live Tables administra la lógica de terminación automática y reutilización del clúster, no se puede invalidar el tiempo de finalización automática del clúster. |
runtime_engine Aunque puede controlar este campo habilitando Photon para la canalización, no puede establecer este valor directamente. |
effective_spark_version El sistema establece automáticamente este valor. |
cluster_source El sistema establece este campo y es de solo lectura. |
docker_image Dado que Delta Live Tables administra el ciclo de vida del clúster, no puede usar un contenedor personalizado con clústeres de canalización. |
workload_type El sistema establece este valor y no se puede invalidar. |