Ejecución de una actualización en una canalización de Delta Live Tables
En este artículo se explica qué es una actualización de canalización de Delta Live Tables y cómo ejecutar una.
Una vez que cree una canalización y tenga todo listo para ejecutarla, inicie una actualización. Una actualización de canalización hace lo siguiente:
- Inicia un clúster con la configuración correcta.
- Detecta todas las tablas y vistas definidas y comprueba si hay errores de análisis, como nombres de columna no válidos, dependencias que faltan y errores de sintaxis.
- Crea o actualiza las tablas y vistas con los datos más recientes disponibles.
Con una actualización de validación, puede comprobar si hay problemas en el código fuente de una canalización sin esperar a que se creen o actualicen las tablas. Esta característica es útil al desarrollar o probar canalizaciones porque permite buscar y corregir rápidamente errores en la canalización, como nombres de tabla o columna incorrectos.
Para obtener información sobre cómo crear una canalización, consulte Configuración de una canalización de Delta Live Tables.
Puede orquestar actualizaciones de canalización con trabajos de Databricks u otras herramientas. Consulte Ejecución de una canalización de Delta Live Tables en un flujo de trabajo.
Inicio de la actualización de una canalización
Azure Databricks tiene varias opciones para iniciar las actualizaciones de canalización, entre las que se incluyen las siguientes:
- En la interfaz de usuario de Delta Live Tables, tiene las siguientes opciones:
- Haga clic en el botón en la página de detalles de la canalización.
- En la lista de canalizaciones, haga clic en en la columna Acciones.
- Para iniciar una actualización en un cuaderno, adjunte el cuaderno a una canalización configurada y haga clic en Iniciar. Consulte Desarrollo y depuración de canalizaciones de Delta Live Tables en cuadernos.
- Puede desencadenar canalizaciones mediante programación mediante la API o la CLI. Consulte Pipeline API (API de canalización).
- Puede programar la canalización como un trabajo mediante la interfaz de usuario de Delta Live Tables o la interfaz de usuario de trabajos. Consulte Programación de una canalización.
Nota:
El comportamiento predeterminado para las actualizaciones de canalización desencadenadas manualmente mediante cualquiera de estos métodos es actualizar todo.
Cómo Delta Live Tables actualiza las tablas y vistas
Las tablas y vistas se actualizan y cómo se actualizan esas tablas y vistas, depende del tipo de actualización:
- Actualizar todo: todas las tablas se actualizan para reflejar el estado actual de sus orígenes de datos de entrada. Para las tablas de streaming, se anexan nuevas filas a la tabla.
- Actualización completa: todas las tablas en directo se actualizan para reflejar el estado actual de sus orígenes de datos de entrada. Para las tablas de streaming, Delta Live Tables intenta borrar todos los datos de cada tabla y, después, cargar todos los datos del origen de streaming.
- Selección de actualización: el comportamiento de
refresh selection
es idéntico arefresh all
pero permite actualizar solo las tablas seleccionadas. Las tablas seleccionadas se actualizan para reflejar el estado actual de sus orígenes de datos de entrada. En el caso de las tablas de streaming, se anexan nuevas filas a la tabla. - Selección de actualización completa: el comportamiento de
full refresh selection
es idéntico afull refresh all
pero permite realizar una actualización completa de solo las tablas seleccionadas. Las tablas seleccionadas se actualizan para reflejar el estado actual de sus orígenes de datos de entrada. En el caso de las tablas de streaming, Delta Live Tables intenta borrar todos los datos de cada tabla y, a continuación, cargar todos los datos del origen de streaming.
En el caso de las vistas materializadas existentes, una actualización tiene el mismo comportamiento que una operación REFRESH
de SQL en una vista materializada. En el caso de las nuevas vistas materializadas, el comportamiento es el mismo que una operación CREATE
de SQL.
Inicio de una actualización de canalización para tablas seleccionadas
Opcionalmente, puede volver a procesar datos para solo tablas seleccionadas en la canalización. Por ejemplo, durante el desarrollo, solo se cambia una tabla y se quiere reducir el tiempo de prueba, o se produce un error en una actualización de canalización y solo desea actualizar las tablas con errores.
Nota:
Puede usar la actualización selectiva solo con canalizaciones desencadenadas.
Para iniciar una actualización que actualice solo las tablas seleccionadas, en la página Detalles de canalización:
Haga clic en Seleccionar tablas para actualizar. El cuadro de diálogo Seleccionar tablas para actualizar aparecerá.
Si no ve el botón Seleccionar tablas para actualizar , confirme que la página Detalles de la canalización muestra la actualización más reciente y que la actualización está completa. Si no se muestra un DAG para la actualización más reciente, por ejemplo, porque se produjo un error en la actualización, no se muestra el botón Seleccionar tablas para actualizar .
Para seleccionar las tablas que desea actualizar, haga clic en cada tabla. Las tablas seleccionadas se resaltan y se etiquetan. Para quitar una tabla de la actualización, vuelva a hacer clic en la tabla.
Haga clic en Actualizar selección.
Nota:
El botón Actualizar selección muestra el número de tablas seleccionadas entre paréntesis.
Para volver a procesar los datos ya ingeridos para las tablas seleccionadas, haga clic junto al botón Actualizar selección y haga clic en Selección de actualización completa.
Inicio de una actualización de canalización para tablas con errores
Si se produce un error en una actualización de canalización debido a errores en una o varias tablas del grafo de canalización, puede iniciar una actualización solo de las tablas con errores y las dependencias de bajada.
Nota:
Las tablas excluidas no se actualizan, aunque dependan de una tabla con errores.
Para actualizar las tablas con errores, en la página Detalles de canalización, haga clic en Actualizar tablas con errores.
Para actualizar solo las tablas con errores seleccionadas:
Haga clic en el jusno al botón Actualizar tablas con errores y haga clic en Seleccionar tablas para actualizar. El cuadro de diálogo Seleccionar tablas para actualizar aparecerá.
Para seleccionar las tablas que desea actualizar, haga clic en cada tabla. Las tablas seleccionadas se resaltan y se etiquetan. Para quitar una tabla de la actualización, vuelva a hacer clic en la tabla.
Haga clic en Actualizar selección.
Nota:
El botón Actualizar selección muestra el número de tablas seleccionadas entre paréntesis.
Para volver a procesar los datos ya ingeridos para las tablas seleccionadas, haga clic junto al botón Actualizar selección y haga clic en Selección de actualización completa.
Comprobación de errores de un pipeline sin esperar a que las tablas se actualicen
Importante
La característica de actualización de Delta Live Tables Validate
está en Versión preliminar pública.
Para comprobar si el código fuente de una canalización es válido sin ejecutar una actualización completa, use Validar. Una actualización de Validate
resuelve las definiciones de conjuntos de datos y flujos definidos en la canalización, pero no materializa ni publica ningún conjunto de datos. Los errores encontrados durante la validación, como nombres de tabla o columna incorrectos, se notifican en la interfaz de usuario.
Para ejecutar una Validate
actualización, haga clic en la página de detalles de la canalización junto a Inicio y haga clic en Validar.
Una vez completada la Validate
actualización, el registro de eventos muestra los eventos relacionados solo con la Validate
actualización y no se muestran métricas en el DAG. Si se encuentran errores, los detalles están disponibles en el registro de eventos.
Puede ver los resultados solo para la actualización de Validate
más reciente. Si la actualización de Validate
fue la actualización de ejecución más reciente, puede ver los resultados seleccionándola en el historial de actualizaciones. Si se ejecuta otra actualización después de la actualización de Validate
, los resultados ya no están disponibles en la interfaz de usuario.
Elección de límites de canalización
Una canalización Delta Live Tables puede procesar actualizaciones en una sola tabla, muchas tablas con relaciones dependientes, muchas tablas sin relaciones o varios flujos independientes de tablas con relaciones dependientes. Esta sección contiene consideraciones para ayudar a determinar cómo dividir las canalizaciones.
Las canalizaciones de Delta Live Tables más grandes tienen varias ventajas. Entre ellas, figuran:
- Usar los recursos de clúster de forma más eficaz.
- Reducir el número de canalizaciones del área de trabajo.
- Reducir la complejidad de la orquestación de flujos de trabajo.
Entre algunas recomendaciones comunes sobre cómo se deben dividir las canalizaciones de procesamiento se incluyen las siguientes:
- Dividir la funcionalidad según los límites de los equipos. Por ejemplo, el equipo de datos podría mantener canalizaciones para transformar datos mientras los analistas de datos mantienen canalizaciones que analizan los datos transformados.
- Divida la funcionalidad por límites específicos de aplicación para reducir el acoplamiento y facilitar la reutilización de las funcionalidades comunes.
Modos de desarrollo y producción
Para optimizar la ejecución de la canalización, cambie entre los modos de desarrollo y producción. Use los botones de la interfaz de usuario de Pipelines para cambiar entre los dos modos. De manera predeterminada, las canalizaciones se ejecutan en el modo de desarrollo.
Si ejecuta la canalización en el modo de desarrollo, el sistema Delta Live Tables hace lo siguiente:
- Reutiliza un clúster para evitar la sobrecarga de los reinicios. De forma predeterminada, los clústeres se ejecutan durante dos horas cuando se habilita el modo de desarrollo. Puede cambiarlo con la
pipelines.clusterShutdown.delay
configuración de la canalización Configurar proceso para una canalización de Delta Live Tables. - Deshabilita los reintentos de la canalización para que pueda detectar y corregir errores inmediatamente.
En el modo de producción, el sistema Delta Live Tables hace lo siguiente:
- Reinicia el clúster con errores recuperables específicos, incluidas fugas de memoria y credenciales obsoletas.
- Reintenta la ejecución en caso de errores específicos, como un error al iniciar un clúster.
Nota:
El cambio entre los modos de desarrollo y producción solo controla el comportamiento de ejecución de los clústeres y las canalizaciones. Las ubicaciones de almacenamiento y los esquemas de destino del catálogo para las tablas de publicación deben configurarse como parte de la configuración de canalización y no se ven afectados al cambiar entre modos.
Programación de una canalización
Puede iniciar una canalización que se haya desencadenado manualmente o ejecutarla según una programación con un trabajo de Azure Databricks. También puede crear y programar un trabajo con una sola tarea de canalización directamente en la interfaz de usuario de Delta Live Tables o agregar una tarea de canalización a un flujo de trabajo de varias tareas en la interfaz de usuario de los trabajos. Consulte Tarea de canalizaciones de Delta Live Tables para trabajos.
Para crear un trabajo de una sola tarea y una programación para el trabajo en la interfaz de usuario de Delta Live Tables:
- Haga clic en Programar> Agregar una programación. Si la canalización se incluye en uno o varios trabajos programados, el botón Programar se actualiza para mostrar el número de programaciones existentes, por ejemplo, Programación (5).
- Escriba un nombre para el trabajo en el campo Nombre del trabajo.
- Establezca la Programación en Programado.
- Especifique el período, la hora de inicio y la zona horaria.
- Configure una o varias direcciones de correo electrónico para recibir alertas sobre el inicio, el éxito o el error de la canalización.
- Haga clic en Crear.