Compartir vía


Configuración de una canalización de Delta Live Tables

En este artículo se describe la configuración básica de las canalizaciones de Delta Live Tables mediante la interfaz de usuario del área de trabajo.

Databricks recomienda desarrollar nuevas canalizaciones mediante sin servidor. Para obtener instrucciones de configuración para canalizaciones sin servidor, consulte Configuración de una canalización de Delta Live Tables sin servidor.

Las instrucciones de configuración de este artículo usan el catálogo de Unity. Para obtener instrucciones para configurar canalizaciones con metastore de Hive heredado, consulte Uso de canalizaciones de Delta Live Tables con metastore de Hive heredado.

Nota:

La interfaz de usuario tiene una opción para mostrar y editar la configuración en JSON. Puede configurar la mayoría de las opciones de configuración con la interfaz de usuario o una especificación JSON. Algunas opciones avanzadas solo están disponibles mediante la configuración JSON.

Los archivos de configuración JSON también son útiles al implementar canalizaciones en nuevos entornos o al usar la CLI o la API de REST.

Para obtener una referencia completa a las opciones de configuración JSON de Delta Live Tables, consulte Configuraciones de canalización de Delta Live Tables.

Configuración de una nueva canalización de Delta Live Tables

Para configurar una nueva canalización de Delta Live Tables, haga lo siguiente:

  1. Haga clic en Delta Live Tables (Tablas dinámicas delta) en la barra lateral.
  2. Haga clic en Crear canalización.
  3. Proporcione un nombre de canalización único.
  4. (Opcional) Use el Icono del selector de archivos selector de archivos para configurar cuadernos y archivos del área de trabajo como código fuente.
    • Si no agrega ningún código fuente, se crea un nuevo cuaderno para la canalización. El cuaderno se crea en un nuevo directorio del directorio de usuario y se muestra un vínculo para acceder a este cuaderno en el campo Código fuente del panel Detalles de canalización después de crear la canalización.
      • Puede acceder a este cuaderno con la dirección URL que se presenta en el campo Código fuente del panel Detalles de canalización una vez que haya creado la canalización.
    • Use el botón Agregar código fuente para agregar recursos de código fuente adicionales.
  5. Seleccione Catálogo de Unity en Opciones de almacenamiento.
  6. Seleccione un catálogo para publicar datos.
  7. Seleccione un esquema en el catálogo. Todas las tablas de streaming y las vistas materializadas definidas en la canalización se crean en este esquema.
  8. En la sección Proceso , active la casilla situada junto a Usar aceleración de photon. Para conocer consideraciones adicionales sobre la configuración de proceso, consulte Opciones de configuración de proceso.
  9. Haga clic en Crear.

Estas configuraciones recomendadas crean una nueva canalización configurada para ejecutarse en modo desencadenado y usan el canal actual . Esta configuración se recomienda para muchos casos de uso, incluido el desarrollo y las pruebas, y es adecuado para cargas de trabajo de producción que se deben ejecutar según una programación. Para más información sobre la programación de canalizaciones, consulte La tarea de canalización de Delta Live Tables para trabajos.

Opciones de configuración de proceso

Databricks recomienda usar siempre el escalado automático mejorado. Los valores predeterminados de otras configuraciones de proceso funcionan bien para muchas canalizaciones.

Las canalizaciones sin servidor quitan las opciones de configuración de proceso. Para obtener instrucciones de configuración para canalizaciones sin servidor, consulte Configuración de una canalización de Delta Live Tables sin servidor.

Use la siguiente configuración para personalizar las configuraciones de proceso:

  • Los administradores del área de trabajo pueden configurar una directiva de clúster. Las directivas de proceso permiten a los administradores controlar qué opciones de proceso están disponibles para los usuarios. Consulte Selección de una directiva de clúster.

  • Opcionalmente, puede configurar el modo de clúster para que se ejecute con el tamaño fijo o el escalado automático heredado. Consulte Optimización del uso del clúster de canalizaciones de Delta Live Tables con escalado automático mejorado.

  • En el caso de las cargas de trabajo con el escalado automático habilitado, establezca Trabajos mínimos y Trabajos máximos para establecer límites para los comportamientos de escalado. Consulte Configuración del proceso para una canalización de Delta Live Tables.

  • Opcionalmente, puedes desactivar la aceleración de Photon. Consulte ¿Qué es Photon?

  • Use etiquetas de clúster para ayudar a supervisar los costos asociados a canalizaciones de Delta Live Tables. Consulte Configuración de etiquetas de clúster.

  • Configure tipos de instancia para especificar el tipo de máquinas virtuales que se usan para ejecutar la canalización. Consulte Selección de tipos de instancia para ejecutar una canalización.

    • Seleccione un tipo de trabajo optimizado para las cargas de trabajo configuradas en la canalización.
    • Opcionalmente, puede seleccionar un tipo de controlador que difiere del tipo de trabajo. Esto puede ser útil para reducir los costos en canalizaciones con tipos de trabajo grandes y un uso de proceso de controlador bajo o para elegir un tipo de controlador más grande para evitar problemas de memoria insuficiente en cargas de trabajo con muchos trabajos pequeños.

Otras consideraciones de configuración

Las siguientes opciones de configuración también están disponibles para canalizaciones:

  • La edición del producto Advanced le proporciona acceso a todas las características de Delta Live Tables. Opcionalmente, puede ejecutar canalizaciones mediante las ediciones de producto Pro o Core . Consulta Elegir una edición de producto.
  • Puede optar por usar el modo de canalización continua al ejecutar canalizaciones en producción. Consulte Modo desencadenado frente a canalización continua.
  • Si el área de trabajo no está configurada para el catálogo de Unity o la carga de trabajo debe usar la metastore de Hive heredada, consulte Uso de canalizaciones de Delta Live Tables con metastore de Hive heredado.
  • Agregue Notificaciones para las actualizaciones de correo electrónico en función de las condiciones de éxito o error. Consulte Agregar notificaciones por correo electrónico para eventos de canalización.
  • Use el campo Configuración para establecer pares clave-valor para la canalización. Estas configuraciones sirven para dos propósitos:
  • Use el canal de versión preliminar para probar la canalización con cambios en tiempo de ejecución de Delta Live Tables pendientes y probar nuevas características.

Seleccionar una edición de producto

Seleccione la edición del producto de Delta Live Tables con las mejores características para los requisitos de la canalización. Están disponibles las siguientes ediciones del producto:

  • Core para ejecutar cargas de trabajo de ingesta de streaming. Seleccione la edición Core si la canalización no requiere características avanzadas, como la captura de datos modificados (CDC) o las expectativas de Delta Live Tables.
  • Pro para ejecutar cargas de trabajo de ingesta de streaming y CDC. La edición Pro del producto admite todas las características de la edición Core, además de la compatibilidad con cargas de trabajo que requieren la actualización de tablas en función de los cambios en los datos de origen.
  • Advanced para ejecutar cargas de trabajo de ingesta de streaming, cargas de trabajo de CDC y cargas de trabajo que requieran expectativas. La Advanced edición del producto admite las características de las Core ediciones y Pro e incluye restricciones de calidad de datos con las expectativas de Delta Live Tables.

Puede seleccionar la edición del producto al crear o editar una canalización. Puede elegir una edición diferente para cada canalización. Consulte la página del producto Delta Live Tables.

Nota: Si la canalización incluye características no compatibles con la edición del producto seleccionada, como expectativas, recibirá un mensaje de error que explica el motivo del error. Después, puede editar la canalización para seleccionar la edición adecuada.

Configuración del código fuente

Puede usar el selector de archivos en la interfaz de usuario de Delta Live Tables para configurar el código fuente que define la canalización. El código fuente de la canalización se define en cuadernos de Databricks o en scripts de SQL o Python almacenados en archivos del área de trabajo. Al crear o editar la canalización, puede agregar uno o varios cuadernos, o archivos de área de trabajo, o una combinación de cuadernos y archivos de área de trabajo.

Dado que Delta Live Tables analiza automáticamente las dependencias del conjunto de datos para construir el gráfico de procesamiento de la canalización, puede agregar recursos de código fuente en cualquier orden.

Puede modificar el archivo JSON para incluir el código fuente de Delta Live Tables definido en scripts de SQL y Python almacenados en archivos del área de trabajo. En el ejemplo siguiente se incluyen cuadernos y archivos de área de trabajo:

{
  "name": "Example pipeline 3",
  "storage": "dbfs:/pipeline-examples/storage-location/example3",
  "libraries": [
    { "notebook": { "path": "/example-notebook_1" } },
    { "notebook": { "path": "/example-notebook_2" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.sql" } },
    { "file": { "path": "/Workspace/Users/<user-name>@databricks.com/Apply_Changes_Into/apply_changes_into.py" } }
  ]
}

Administración de dependencias externas para canalizaciones que usan Python

Delta Live Tables admite el uso de dependencias externas en las canalizaciones, como paquetes y bibliotecas de Python. Para obtener información sobre las opciones y recomendaciones para usar dependencias, consulte Administración de dependencias de Python para canalizaciones de Delta Live Tables.

Uso de módulos de Python almacenados en el área de trabajo de Azure Databricks

Además de implementar el código de Python en cuadernos de Databricks, puede usar Carpetas de Git de Databricks o archivos de área de trabajo para almacenar el código como módulos de Python. Almacenar el código como módulos de Python es especialmente útil cuando tiene funcionalidad común que desea usar en varias canalizaciones o cuadernos de la misma canalización. Para obtener información sobre cómo usar módulos de Python con las canalizaciones, consulte Importación de módulos de Python desde carpetas de Git o archivos de área de trabajo.