Elección de una tecnología de orquestación de canalizaciones de datos en Azure
La mayoría de las soluciones de macrodatos incluyen operaciones de procesamiento de datos repetidas, encapsuladas en flujos de trabajo. Un orquestador de canalizaciones es una herramienta que ayuda a automatizar estos flujos de trabajo. El orquestador puede programar trabajos, ejecutar flujos de trabajo y coordinar dependencias entre tareas.
¿De qué opciones de orquestación de canalizaciones de datos dispone?
En Azure, los siguientes servicios y herramientas cumplirán los requisitos principales de orquestación de canalizaciones, flujo de control y movimiento de datos:
Estos servicios y herramientas se pueden usar de forma independiente entre sí o conjuntamente para crear una solución híbrida. Por ejemplo, Integration Runtime (IR) en Azure Data Factory V2 puede ejecutar paquetes SSIS de forma nativa en un entorno de proceso de Azure administrado. Aunque algunas de las funcionalidades de estos servicios son similares, existen varias diferencias importantes.
Principales criterios de selección
Para restringir las opciones, empiece por responder a estas preguntas:
¿Necesita funcionalidades de macrodatos para mover y transformar los datos? Normalmente, esto exigiría de varios gigabytes a terabytes de datos. Si realmente lo necesitara, limite sus opciones a las más adecuadas para macrodatos.
¿Necesita un servicio administrado que pueda operar a escala? Si es así, seleccione uno de los servicios basados en la nube, que no están limitados por su capacidad de procesamiento local.
¿Algunos de sus orígenes de datos se encuentran en entornos locales? Si es así, busque opciones que puedan funcionar con orígenes de datos o destinos tanto en la nube como en entornos locales.
¿Los datos de origen están almacenados en Blob Storage en un sistema de archivos HDFS? En caso afirmativo, elija una opción que admita consultas de Hive.
Matriz de funcionalidades
En las tablas siguientes se resumen las diferencias clave en cuanto a funcionalidades.
Funcionalidades generales
Capacidad | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie en HDInsight |
---|---|---|---|
Administrado | Sí | No | Sí |
Basado en la nube | Sí | No (local) | Sí |
Requisito previo | Suscripción de Azure | SQL Server | Suscripción de Azure, clúster de HDInsight |
Herramientas de administración | Azure Portal, PowerShell, CLI, .NET SDK | SSMS, PowerShell | Shell de Bash, API REST de Oozie, interfaz de usuario web de Oozie |
Precios | Pago por uso | Licencias/pago por características | Sin cargo adicional aparte de la ejecución del clúster de HDInsight |
Funcionalidades de canalización
Capacidad | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie en HDInsight |
---|---|---|---|
Copia de datos | Sí | Sí | Sí |
Transformaciones personalizadas | Sí | Sí | Sí (trabajos de MapReduce, Pig y Hive) |
Puntuación de Azure Machine Learning | Sí | Sí (con scripts) | No |
HDInsight a petición | Sí | No | No |
Azure Batch | Sí | No | No |
Pig, Hive, MapReduce | Sí | No | Sí |
Spark | Sí | No | No |
Ejecución de paquetes SSIS | Sí | Sí | No |
Flujo de control | Sí | Sí | Sí |
Acceso a datos locales | Sí | Sí | No |
Funcionalidades de escalabilidad
Capacidad | Azure Data Factory | SQL Server Integration Services (SSIS) | Oozie en HDInsight |
---|---|---|---|
Escalado vertical | Sí | No | No |
Escalado horizontal | Sí | No | Sí (mediante la adición de nodos de trabajo al clúster) |
Optimizado para macrodatos | Sí | No | Sí |
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Autor principal:
- Zoiner Tejada | Director ejecutivo y arquitecto
Pasos siguientes
- Canalizaciones y actividades en Azure Data Factory y Azure Synapse Analytics
- Aprovisionamiento de Azure-SSIS Integration Runtime en Azure Data Factory
- Oozie en HDInsight