Utiliser des pipelines de fabrique de données
Pour pouvoir utiliser des pipelines Data Factory, il est impératif de comprendre ce qu’est un pipeline dans Azure Data Factory.
Dans Azure Data Factory, un pipeline représente un regroupement logique d’activités dans lesquelles les activités effectuent ensemble une tâche donnée.
Un exemple d’une combinaison d’activités dans un pipeline peut être l’ingestion et le nettoyage des données de journal en association avec un flux de données de mappage qui analyse les données du journal qui ont été nettoyées.
Un pipeline vous permet de gérer les différentes activités individuelles sous la forme d’un jeu, qui serait sinon géré individuellement. Cela vous permet de déployer et de planifier efficacement les activités, à l’aide d’un pipeline unique, plutôt que de gérer chaque activité indépendamment.
Les activités d’un pipeline sont des actions que vous effectuez sur vos données. Une activité peut inclure zéro ou plusieurs jeux de données d’entrée et produire un ou plusieurs jeux de données de sortie.
Un exemple d’action peut être l’utilisation d’une activité de copie, où vous copiez des données à partir d’Azure SQL Database vers Azure Data Lake Storage Gen2. Pour générer cet exemple, vous pouvez utiliser une activité de flux de données ou de notebook Azure Databricks pour traiter et transformer les données qui ont été copiées dans votre compte Azure Data Lake Storage Gen2, afin que les données soient prêtes pour les solutions de création de rapports décisionnels, comme dans Azure Synapse Analytics.
Étant donné que de nombreuses activités sont possibles dans un pipeline dans Azure Data Factory, nous avons regroupé les activités dans trois catégories :
- Activités de déplacement des données : l’activité de copie dans Data Factory permet de copier les données d’un magasin de données source vers un magasin de données récepteur.
- Activités de transformation des données : Azure Data Factory prend en charge les activités de transformation, telles que Data Flow, Fonction Azure, Spark et d’autres, qui peuvent être ajoutées à des pipelines, soit individuellement, soit chaînées à une autre activité.
- Activités de contrôle : voici des exemples d’activités de flux de contrôle : « get metadata », « For Each » et « Execute Pipeline ».
Les activités peuvent dépendre les unes des autres. C’est-à-dire que la dépendance d’activité définit la manière dont les activités suivantes dépendent des activités précédentes. La dépendance elle-même peut être basée sur la condition de poursuivre ou non l’exécution des activités définies précédemment afin d’effectuer une tâche. Une activité qui dépend d’une ou de plusieurs activités précédentes peut avoir différentes conditions de dépendance.
Les quatre conditions de dépendance sont les suivantes :
- Opération réussie
- Échec
- Ignoré
- Completed
Par exemple, si un pipeline a une activité A, suivie d’une activité B et que l’activité B a une condition de dépendance sur l’activité A « Opération réussie », l’activité B s’exécute uniquement si l’activité A a l’État Opération réussie.
Si un pipeline contient plusieurs activités et que les activités suivantes ne sont pas dépendantes d’activités précédentes, les activités peuvent s’exécuter en parallèle.