Qu’est-ce que le travail de copie (préversion) dans Data Factory pour Microsoft Fabric
Data Factory dans Fabric donne aux utilisateurs les moyens d’intégrer de manière transparente les données de plus de 100 connecteurs intégrés, à la fois sources et de destination, via une interface visuellement intuitive. L’activité Copy, au sein du pipelines de données, facilite l’ingestion des données. En parallèle, Dataflow Gen2 prend en charge les transformations de données, et les pipelines orchestrent le flux d’intégration.
Avantages du travail de copie
Bien que l’activité Copy au sein des pipelines de données gère l’ingestion des données avec des opérations en bloc/par lots, la création de pipelines de données dans Data Factory s’avère encore problématique pour de nombreux utilisateurs novices dans le domaine, avec une courbe d’apprentissage plus abrupte. Nous avons donc le plaisir de vous présenter le travail de copie, qui élève l’expérience d’ingestion des données à un processus simplifié et plus convivial, de n’importe quelle source vers n’importe quelle destination. Désormais, copier vos données est plus facile que jamais. De plus, le travail de copie prend en charge divers styles de livraison des données, notamment la copie par lots et la copie incrémentielle, ce qui offre une certaine flexibilité pour répondre à des besoins spécifiques.
Voici certains avantages du travail de copie par rapport à d’autres méthodes de déplacement des données :
- Expérience intuitive : faites l’expérience d’une copie de données fluide et sans compromis, ce qui rend le processus plus facile que jamais.
- Efficacité : activez la copie incrémentielle sans effort, ce qui permet de réduire les interventions manuelles. Cette efficacité se traduit par une utilisation moindre des ressources et des durées de copie plus courtes.
- Flexibilité : tout en bénéficiant de la simplicité, vous avez également la flexibilité nécessaire pour contrôler le déplacement de vos données. Choisissez les tables et les colonnes à copier, mappez les données, définissez le comportement de lecture/écriture et définissez des planifications adaptées à vos besoins, qu’il s’agisse d’une tâche ponctuelle ou d’une opération périodique.
- Performances robustes : configuration serverless permettant le transfert de données avec un parallélisme à grande échelle, ce qui optimise le débit de déplacement des données de votre système.
Connecteurs pris en charge
Pour le moment, vous pouvez utiliser le travail de copie pour le transfert de données cloud, ou la copie de données à partir d’un magasin de données local via une passerelle. Le travail de copie prend en charge les magasins de données suivants en tant que source et destination :
- Azure SQL DB
- Serveur SQL Server local
- Fabric Warehouse
- Fabric Lakehouse
- Amazon S3
- Azure Data Lake Storage Gen2
- Stockage Blob Azure
- Amazon RDS pour SQL Server
L’équipe produit explore des possibilités supplémentaires de prise en charge des connecteurs. Restez à l’écoute pour les mises à jour.
Comportement de copie
Vous pouvez choisir l’un des styles de livraison des données suivants.
- Mode de copie complète : chaque exécution d’un travail de copie permet de copier toutes les données de la source vers la destination en une seule fois.
- Mode de copie incrémentielle : l’exécution initiale du travail copie toutes les données, et les exécutions suivantes du travail copient uniquement les changements survenus depuis la dernière exécution. Les données changées sont ajoutées à votre magasin de destination.
Vous pouvez également choisir la façon dont les données sont écrites dans votre magasin de destination.
Par défaut, le travail de copie ajoute les données à votre destination, pour que vous ne manquiez aucun historique des changements. Toutefois, vous pouvez également ajuster le comportement d’écriture pour faire un upsert ou remplacer des données.
- Quand des données sont copiées dans le magasin de stockage : les nouvelles lignes des tables ou des fichiers sont copiées dans les nouveaux fichiers de la destination. Si un fichier portant le même nom existe déjà dans le magasin cible, il est remplacé.
- Quand des données sont copiées dans la base de données : les nouvelles lignes des tables ou des fichiers sont ajoutées aux tables de destination. Vous pouvez changer le comportement d’écriture pour faire un upsert des données (sur SQL DB ou SQL Server), ou les remplacer (sur les tables Fabric Lakehouse).
Colonne incrémentielle
En mode de copie incrémentielle, vous devez sélectionner une colonne incrémentielle pour chaque table afin d’identifier les changements. Le travail de copie utilise cette colonne en tant que filigrane, en comparant sa valeur à celle de la dernière exécution pour copier uniquement les données nouvelles ou mises à jour. La colonne incrémentielle doit être une colonne timestamp ou une colonne INT qui augmente au fil du temps.
Disponibilité dans les régions
Le travail de copie a la même disponibilité régionale que le pipeline.
Tarification
Le travail de copie utilise le même compteur de facturation : Déplacement des données, avec un taux de consommation identique.