Répertorier les méthodes d’ingestion de Data Factory

Effectué

Azure Data Factory peut s’adapter aux organisations qui se lancent dans des projets d’intégration de données à partir d’un point de départ différent. Il est rare qu’un projet de migration de données soit un projet facile. En règle générale, de nombreux flux de travail d’intégration de données doivent tenir compte des pipelines existants qui ont été créés sur des projets précédents, avec différentes dépendances et technologies. Pour cela, il existe plusieurs méthodes d’ingestion qui peuvent être utilisées pour extraire des données à partir de diverses sources.

Ingestion de données à l'aide de l'activité de copie

Utilisez cette méthode pour générer des pipelines d’ingestion des données sans code qui ne nécessitent aucune transformation lors de l’extraction des données. L’activité de copie prend en charge plus de 100 connecteurs natifs. Cette méthode peut correspondre à des projets avec une méthode simple d’extraction dans un magasin de données intermédiaire. Un exemple d’ingestion de données avec l’activité Copy peut être l’extraction de données issues de plusieurs systèmes de base de données sources et la sortie de données dans les fichiers d’un magasin de lacs de données. L’avantage de cette méthode d’ingestion est qu’ils sont simples à créer, mais qu’ils ne sont pas en mesure de gérer des transformations sophistiquées ou la logique métier.

Ingestion de données à l’aide de ressources de calcul

Azure Data Factory peut faire appel à des ressources de calcul pour traiter les données par un service de plateforme de données qui peut être mieux adapté à la tâche. Voici un exemple : Azure Data Factory peut créer un pipeline sur une plateforme de données analytiques telle que les pools Spark dans une instance Azure Synapse Analytics pour effectuer un calcul complexe, qui génère de nouvelles données. Ces données sont ensuite inversées dans le pipeline pour un traitement en aval ultérieur. Il existe un large éventail de ressources de calcul, et les activités associées sont qu’elles peuvent réaliser figurent dans le tableau suivant :

Environnement de calcul activities
Cluster HDInsight à la demande ou votre propre cluster HDInsight Hive, Pig, Spark, MapReduce, Streaming Hadoop
Azure Batch Activités personnalisées
Machine Azure Machine Learning Studio Activités de machine learning : exécution de lot et mise à jour de ressource
Azure Machine Learning Activité d’exécution des pipelines Azure Machine Learning
Service Analytique Azure Data Lake Langage U-SQL du service Analytique Data Lake
Azure SQL, Azure SQL Data Warehouse, SQL Server Procédure stockée
Azure Databricks Notebook, Jar, Python
Fonction Azure Activité de fonction Azure

Réception de données à l’aide de packages SSIS

De nombreuses organisations disposent de dizaines d’investissements en développement dans des packages SQL Server Integration Services (SSIS) qui contiennent à la fois la logique d’ingestion et la logique de transformation des magasins de données locaux et cloud. Azure Data Factory permet de lever et de déplacer la charge de travail SSIS existante, en créant un runtime d’intégration Azure SSIS pour exécuter en mode natif des packages SSIS, et vous permet de déployer et de gérer vos packages SSIS existants avec peu ou pas de modifications à l’aide d’outils familiers tels que SQL Server Data Tools (SSDT) et SQL Server Management Studio (SSMS), tout comme l’utilisation de SSIS localement.