Conocer Azure Data Factory

Completado

La necesidad de desencadenar el movimiento de datos por lotes o configurar una programación normal es un requisito para la mayoría de las soluciones de análisis. Azure Data Factory (ADF) es el servicio que se puede usar para cumplir este requisito. ADF proporciona un servicio de integración de datos basado en la nube que organiza el movimiento y la transformación de datos entre varios almacenes de datos y recursos de proceso.

Azure Data Factory es el servicio de integración de datos y ETL basado en la nube que permite crear flujos de trabajo basados en datos para orquestar el movimiento de datos y transformar los datos a escala. Con Azure Data Factory, puede crear y programar flujos de trabajo basados en datos (llamados canalizaciones) que pueden ingerir datos de distintos almacenes de datos. Puede compilar procesos ETL complejos que transformen datos visualmente con flujos de datos o mediante el uso de servicios de proceso, como Azure HDInsight Hadoop, Azure Databricks y Azure Synapse Analytics.

Gran parte de la funcionalidad de Azure Data Factory aparece en Azure Synapse Analytics como una característica denominada canalizaciones, que le permite integrar canalizaciones de datos entre grupos de SQL, grupos de Spark y SQL sin servidor, lo que proporciona una tienda de un solo punto para todas sus necesidades de análisis.

¿Qué significa orquestación?

Para usar una analogía, piense en una orquesta sinfónica. El miembro principal de la orquesta es el director. El director no toca los instrumentos, simplemente dirige a los miembros de la orquesta a través de toda la pieza musical que interpretan. Los músicos usan sus propios conocimientos para generar sonidos concretos en distintas partes de la sinfonía, por lo que solo pueden aprender algunas partes de la pieza. El director dirige toda la pieza musical y, por lo tanto, es consciente de la partitura completa que se está tocando. También usará movimientos específicos con los brazos que proporcionen instrucciones a los músicos de cómo debe tocarse un fragmento musical.

ADF puede usar un enfoque similar, mientras que tiene funcionalidad nativa para la ingesta y transformación de datos, a veces le indicará a otro servicio que realice el trabajo real necesario en su nombre, como Databricks para ejecutar una consulta de transformación. Por lo tanto, en este caso, sería Databricks quien realice el trabajo, no ADF. ADF simplemente organiza la ejecución de la consulta y, a continuación, proporciona las canalizaciones para trasladar los datos al siguiente paso o destino.

También proporciona excelentes visualizaciones para mostrar el linaje y las dependencias entre las canalizaciones de datos y para poder supervisar todas las canalizaciones de datos desde una única vista unificada, con el fin de facilitar la identificación de los problemas y la configuración de alertas de supervisión.

Plataforma Data Factory