Partage via


Choisir une technologie d’orchestration de pipeline de données dans Azure

La plupart des solutions Big Data se composent d’opérations répétées de traitement des données, encapsulées dans les flux de travail. Un orchestrateur de pipeline est un outil qui permet d’automatiser ces flux de travail. Un orchestrateur peut planifier des travaux, exécuter des flux de travail et coordonner les dépendances entre les tâches.

Quelles sont vos options d’orchestration de pipeline de données ?

Dans Azure, les services et outils suivants répondent aux exigences principales pour l’orchestration de pipeline, le flux de contrôle et le déplacement des données :

Ces services et outils peuvent être utilisés indépendamment les uns des autres, ou utilisés ensemble pour créer une solution hybride. Par exemple, le runtime d’intégration (IR) dans Azure Data Factory V2 peut exécuter en mode natif des packages SSIS dans un environnement de calcul Azure managé. Bien qu’il y ait un chevauchement entre ces services, il existe quelques différences clés.

Critères de sélection clés

Pour limiter les choix, commencez par répondre à ces questions :

  • Avez-vous besoin de fonctionnalités Big Data pour déplacer et transformer vos données ? Cela signifie généralement plusieurs gigaoctets à des téraoctets de données. Si oui, limitez vos options à celles qui conviennent le mieux au Big Data.

  • Avez-vous besoin d’un service managé qui peut fonctionner à grande échelle ? Si c’est le cas, sélectionnez l’un des services cloud qui ne sont pas limités par votre puissance de traitement locale.

  • Certaines de vos sources de données se trouvent-elles localement ? Si c’est le cas, recherchez des options qui peuvent fonctionner à la fois avec des sources de données cloud et locales ou des destinations.

  • Vos données sources sont-elles stockées dans le stockage Blob sur un système de fichiers HDFS ? Si c’est le cas, choisissez une option qui prend en charge les requêtes Hive.

Matrice de capacité

Les tableaux suivants résument les principales différences de fonctionnalités.

Fonctionnalités générales

Capacité Azure Data Factory SQL Server Integration Services (SSIS) Oozie sur HDInsight
Adresses IP gérées Oui Non Oui
Basé sur le cloud Oui Non (Local) Oui
Prérequis Abonnement Azure SQL Server Abonnement Azure, cluster HDInsight
Outils de gestion Portail Azure, PowerShell, CLI, Kit de développement logiciel (SDK) .NET SSMS, PowerShell Interpréteur de commandes Bash, API REST Oozie, interface utilisateur web Oozie
Tarification Paiement par utilisation Licences / paiement pour les fonctionnalités Aucun frais supplémentaire en plus de l’exécution du cluster HDInsight

Fonctionnalités de pipeline

Capacité Azure Data Factory SQL Server Integration Services (SSIS) Oozie sur HDInsight
Copier des données Oui Oui Oui
Transformations personnalisées Oui Oui Oui (travaux MapReduce, Pig et Hive)
Notation d’Azure Machine Learning Oui Oui (avec script) Non
HDInsight à la demande Oui Non Non
Azure Batch Oui Non Non
Pig, Hive, MapReduce Oui Non Oui
Spark Oui Non Non
Exécuter le package SSIS Oui Oui Non
Flux de contrôle Oui Oui Oui
Accéder aux données locales Oui Oui Non

Fonctionnalités d’extensibilité

Capacité Azure Data Factory SQL Server Integration Services (SSIS) Oozie sur HDInsight
Monter en puissance Oui Non Non
Scale-out Oui Non Oui (via l’ajout de nœuds de travail en cluster)
Optimisé pour le Big Data Oui Non Oui

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes