Compartir a través de


Actualización de un flujo de datos

Los flujos de datos permiten conectarse, transformar, combinar y cargar datos en el almacenamiento para el consumo de bajada. Un elemento clave de los flujos de datos es el proceso de actualización, que aplica los pasos de transformación definidos durante la creación para la extracción, transformación y carga de datos en el almacenamiento de destino.

Captura de pantalla que muestra un flujo de datos de ejemplo.

Una actualización de flujo de datos se puede desencadenar de dos maneras, ya sea a petición o mediante la configuración de una programación de actualización. Se ejecuta una actualización programada en función de los días y horas concretos que especifique.

Requisitos previos

Estos son los requisitos previos para actualizar un flujo de datos:

Actualización a petición

Para actualizar un flujo de datos a petición, seleccione el icono Actualizar, que se encuentra en la lista de áreas de trabajo o las vistas de linaje.

Captura de pantalla que muestra dónde seleccionar Actualizar en la vista de lista del área de trabajo.

Hay otras formas en que se puede desencadenar una actualización de flujo de datos a petición. Cuando una publicación de flujo de datos se completa correctamente, se inicia una actualización a petición. La actualización a petición también se puede desencadenar a través de una canalización que contiene una actividad de flujo de datos.

Actualización programada

Para actualizar automáticamente un flujo de datos según una programación, seleccione el icono Actualización programada que se encuentra en la vista de lista del área de trabajo:

Captura de pantalla que muestra dónde seleccionar Actualización programada en la vista de lista del área de trabajo.

La sección de actualización es donde se definen la frecuencia y las franjas horarias para actualizar un flujo de datos, hasta 48 veces al día. En la captura de pantalla siguiente se muestra una programación de actualización diaria en un intervalo de 12 horas.

Captura de pantalla que muestra un ejemplo de una configuración de actualización de programación diaria de 12 horas.

Cancelar actualización

Cancelar la actualización del flujo de datos es útil cuando desea detener una actualización durante la hora punta si una capacidad está cerca de sus límites o si la actualización tarda más de lo esperado. Use la característica de cancelación de actualización para dejar de actualizar flujos de datos.

Para cancelar una actualización de flujo de datos, seleccione el icono Cancelar que se encuentra en la lista de áreas de trabajo o las vistas de linaje de un flujo de datos con actualización en curso.

Captura de pantalla que muestra dónde configurar la programación de actualización del flujo de datos en la página de configuración del flujo de datos.

Una vez cancelada una actualización del flujo de datos, el estado del historial de actualización del flujo de datos se actualiza para reflejar el estado de cancelación:

Captura de pantalla que muestra la vista del historial de actualizaciones de flujos de datos para una actualización de flujo de datos cancelada.

Limitaciones de la actualización

En el caso de las actualizaciones de flujo de datos, se aplican un par de limitaciones:

  1. Por flujo de datos, solo se le permiten 150 actualizaciones cada 24 horas (ventana gradual). Al superar este límite, recibirá un error en el historial de actualizaciones y las actualizaciones se reanudarán cuando esté por debajo del límite.
  2. Si sucesivamente se produce un error en la actualización programada del flujo de datos, pausaremos la programación de actualización del flujo de datos y enviaremos un correo electrónico al propietario del flujo de datos. En este caso, se aplican las siguientes reglas:
    • 72 horas (3 días)
      • Tasa de errores del 100 % durante 72 horas
      • Mínimo de 6 actualizaciones (2 actualizaciones al día)
    • 168 horas (1 semana)
      • Tasa de errores del 100 % durante 168 horas
      • Mínimo de 5 actualizaciones (1 actualización al día)
  3. Una única evaluación de una consulta tiene un límite de 8 horas.
  4. El tiempo de actualización total de una única actualización de un flujo de datos se limita a un máximo de 24 horas.
  5. Por flujo de datos, puede tener un máximo de 50 consultas almacenadas provisionalmente, o consultas con destino de salida o combinación de ambos.

Implicaciones de cancelación de la actualización de los datos de salida

Se puede detener una actualización de flujo de datos a través de la característica de cancelación de la actualización o si se produjo un error durante el procesamiento de las consultas del flujo de datos. Se pueden observar resultados diferentes en función del tipo de destino y de cuándo se detuvo la actualización. Estos son los posibles resultados para los dos tipos de destino de datos de una consulta:

  • La consulta está cargando datos en el almacenamiento provisional: los datos de la última actualización correcta están disponibles.
  • La consulta está cargando datos en un destino de datos: los datos escritos hasta el punto de cancelación están disponibles.

No todas las consultas de un flujo de datos se procesan al mismo tiempo, por ejemplo, si un flujo de datos contiene muchas consultas o algunas consultas dependen de otras. Si se cancela una actualización antes de que se inicie la evaluación de una consulta que carga datos en un destino, no hay ningún cambio en los datos en el destino de esa consulta.