Uso de canalizaciones de Data Factory
Para trabajar con canalizaciones de factoría de datos, es necesario comprender qué es una canalización en Azure Data Factory.
Una canalización de Azure Data Factory representa una agrupación lógica de actividades donde las actividades juntas realizan una determinada tarea.
Un ejemplo de una combinación de actividades en una canalización puede ser ingerir y limpiar datos de registro en combinación con un flujo de datos de asignación que analiza los datos de registro que se han limpiado.
Una canalización permite administrar las actividades individuales independientes como conjunto que, de otro modo, se administrarían de forma individual. Permite implementar y programar las actividades de forma eficaz, mediante el uso de una sola canalización, en lugar de administrar cada actividad de forma independiente.
Las actividades de una canalización se conocen como "acciones" y se realizan en los datos. Una actividad puede tomar diversos conjuntos de datos, o ninguno, y generar uno o varios conjuntos de datos.
Un ejemplo de una acción puede ser el uso de una actividad de copia, en la que se copian datos de una instancia de Azure SQL Database a una de Azure Data Lake Storage Gen2. Para ampliar este ejemplo, puede utilizar una actividad de flujo de datos o una actividad de Azure Databricks Notebook para procesar y transformar los datos que se copiaron en su cuenta de Azure Data Lake Storage Gen2, con el fin de tener los datos listos para las soluciones de creación de informes de inteligencia empresarial, como en Azure Synapse Analytics.
Como una canalización de Azure Data Factory hay muchas actividades posibles, se han agrupado en tres categorías:
- Actividades de movimiento de datos: la actividad de copia de Data Factory copia los datos de un almacén de datos de origen a uno receptor.
- Actividades de transformación de datos: Azure Data Factory admite actividades de transformación, como Data Flow, Azure Functions, Spark y otras que se puedan agregar a las canalizaciones de forma individual o encadenadas a otra actividad.
- Actividades de control: algunos ejemplos de actividades del flujo de control son la de obtención de metadatos, "for-each" y la de ejecución de canalización.
Las actividades pueden depender unas de otras. Es decir, la dependencia de la actividad define el modo en que las actividades posteriores dependen de las anteriores. La dependencia en sí misma puede basarse en una condición de si se debe continuar o no en la ejecución de actividades definidas previamente para completar una tarea. Una actividad que depende de una o varias actividades anteriores puede tener distintas condiciones de dependencia.
Las cuatro condiciones de dependencia son las siguientes:
- Correcto
- Con error
- Omitido
- Completed
Por ejemplo, si una canalización tiene una actividad A, seguida de una actividad B, y la actividad B tiene como condición de dependencia la actividad A con el estado "Succeeded", la actividad B solo se ejecutará si la actividad A tiene ese estado.
Si tiene varias actividades en una canalización y las actividades siguientes no son dependientes de actividades anteriores, las actividades se pueden ejecutar en paralelo.