Compartir a través de


Elección de una tecnología de orquestación de canalizaciones de datos en Azure

La mayoría de las soluciones de macrodatos incluyen operaciones de procesamiento de datos repetidas, encapsuladas en flujos de trabajo. Un orquestador de canalizaciones es una herramienta que ayuda a automatizar estos flujos de trabajo. El orquestador puede programar trabajos, ejecutar flujos de trabajo y coordinar dependencias entre tareas.

¿De qué opciones de orquestación de canalizaciones de datos dispone?

En Azure, los siguientes servicios y herramientas cumplirán los requisitos principales de orquestación de canalizaciones, flujo de control y movimiento de datos:

Estos servicios y herramientas se pueden usar de forma independiente entre sí o conjuntamente para crear una solución híbrida. Por ejemplo, Integration Runtime (IR) en Azure Data Factory V2 puede ejecutar paquetes SSIS de forma nativa en un entorno de proceso de Azure administrado. Aunque algunas de las funcionalidades de estos servicios son similares, existen varias diferencias importantes.

Principales criterios de selección

Para restringir las opciones, empiece por responder a estas preguntas:

  • ¿Necesita funcionalidades de macrodatos para mover y transformar los datos? Normalmente, esto exigiría de varios gigabytes a terabytes de datos. Si realmente lo necesitara, limite sus opciones a las más adecuadas para macrodatos.

  • ¿Necesita un servicio administrado que pueda operar a escala? Si es así, seleccione uno de los servicios basados en la nube, que no están limitados por su capacidad de procesamiento local.

  • ¿Algunos de sus orígenes de datos se encuentran en entornos locales? Si es así, busque opciones que puedan funcionar con orígenes de datos o destinos tanto en la nube como en entornos locales.

  • ¿Los datos de origen están almacenados en Blob Storage en un sistema de archivos HDFS? En caso afirmativo, elija una opción que admita consultas de Hive.

Matriz de funcionalidades

En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.

Funcionalidades generales

Capacidad Azure Data Factory SQL Server Integration Services (SSIS) Oozie en HDInsight
Administrado No
Basado en la nube No (local)
Requisito previo Suscripción de Azure SQL Server Suscripción de Azure, clúster de HDInsight
Herramientas de administración Azure Portal, PowerShell, CLI, .NET SDK SSMS, PowerShell Shell de Bash, API REST de Oozie, interfaz de usuario web de Oozie
Precios Pago por uso Licencias/pago por características Sin cargo adicional aparte de la ejecución del clúster de HDInsight

Funcionalidades de canalización

Capacidad Azure Data Factory SQL Server Integration Services (SSIS) Oozie en HDInsight
Copia de datos
Transformaciones personalizadas Sí (trabajos de MapReduce, Pig y Hive)
Puntuación de Azure Machine Learning Sí (con scripts) No
HDInsight a petición No No
Azure Batch No No
Pig, Hive, MapReduce No
Spark No No
Ejecución de paquetes SSIS No
Flujo de control
Acceso a datos locales No

Funcionalidades de escalabilidad

Capacidad Azure Data Factory SQL Server Integration Services (SSIS) Oozie en HDInsight
Escalado vertical No No
Escalado horizontal No Sí (mediante la adición de nodos de trabajo al clúster)
Optimizado para macrodatos No

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Pasos siguientes