Guide de décision Microsoft Fabric : l'activité de copie, le flux de données ou Spark

Article
01/31/2025

Utilisez ce guide de référence et les exemples de scénarios pour vous aider à décider si vous avez besoin d’une activité de copie, d’un dataflow ou d’Spark pour vos charges de travail Microsoft Fabric.

Activité de copie, flux de données et propriétés Spark

	Activité de copie de pipeline	Dataflow Gen 2	Spark
Cas d'utilisation	Migration du lac de données et de l’entrepôt de données, ingestion des données, transformation légère	Ingestion des données, transformation des données, data wrangling, profilage des données	Ingestion des données, transformation des données, traitement des données profilage des données
Personnage de développeur principal	Ingénieur données, intégrateur de données	Ingénieur données, intégrateur de données, analyste d'affaires	Ingénieur données, scientifique des données, développeur de données
ensemble de compétences principal du développeur	ETL, SQL, JSON	ETL, M, SQL	Spark (Scala, Python, Spark SQL, R)
Code écrit	Aucun code, peu de code	Aucun code, peu de code	Code
Volume de données	De faible à élevé	Faible à élevé	Faible à élevé
Interface de développement	Sorcier canevas	Power Query	Carnet de notes Définition du travail Spark
Sources	Plus de 30 connecteurs	150+ connecteurs	Centaines de bibliothèques Spark
Destinations	Plus de 18 connecteurs	Lakehouse, Base de données Azure SQL, Explorateur de données Azure, Azure Synapse Analytics	Centaines de bibliothèques Spark
complexité de la transformation	Faible : léger : conversion de type, mappage de colonnes, fusion/fractionnement de fichiers, hiérarchie aplate	Faible à élevé : 300+ fonctions de transformation	Faible à élevé : prise en charge des bibliothèques Spark natives et open source

Passez en revue les trois scénarios suivants pour obtenir de l’aide sur le choix de l’utilisation de vos données dans Fabric.

Scénario1

Leo, ingénieur données, doit ingérer un grand volume de données à partir de systèmes externes, à la fois locaux et cloud. Ces systèmes externes incluent des bases de données, des systèmes de fichiers et des API. Leo ne souhaite pas écrire et gérer du code pour chaque opération de déplacement de données ou de connecteur. Il veut suivre les meilleures pratiques des couches de médaillon, avec le bronze, l’argent et l’or. Leo n’a pas d’expérience avec Spark. Il préfère donc l’interface utilisateur glisser-déplacer autant que possible, avec un codage minimal. Il souhaite également traiter les données selon une planification.

La première étape consiste à obtenir les données brutes dans le lakehouse de couche bronze à partir de ressources de données Azure et de diverses sources tierces (comme Snowflake Web, REST, AWS S3, GCS, etc.). Il souhaite un lakehouse consolidé, afin que toutes les données de différentes sources d’application métier, locales et cloud se trouvent dans un emplacement unique. Leo passe en revue les options et sélectionne l’activité de copie de pipeline comme choix approprié pour sa copie binaire brute. Ce modèle s’applique à l’actualisation des données historiques et incrémentielles. Avec l’activité de copie, Leo peut charger des données or dans un entrepôt de données sans code si le besoin se présente et les pipelines fournissent une ingestion de données à grande échelle qui peut déplacer des données à l’échelle du pétaoctet. L’activité de copie est le meilleur choix à faible code et sans code pour déplacer des pétaoctets de données vers des lakehouses et des entrepôts à partir de différentes sources, soit ad hoc, soit via une planification.

Scénario2

Mary est une ingénieure données avec une connaissance approfondie des multiples exigences en matière de création de rapports analytiques d’application métier. Une équipe en amont a correctement implémenté une solution pour migrer les données historiques et incrémentielles de plusieurs applications métier vers un lakehouse commun. Mary a été chargée de nettoyer les données, d’appliquer des logiques métier et de les charger dans plusieurs destinations (telles qu’Azure SQL DB, ADX et un lakehouse) en préparation de leurs équipes de création de rapports respectives.

Mary est un utilisateur Power Query expérimenté, et le volume de données se trouve dans la plage faible à moyenne pour atteindre les performances souhaitées. Les dataflows fournissent des interfaces sans code ou à faible code pour l’ingestion de données à partir de centaines de sources de données. Avec les dataflows, vous pouvez transformer des données à l’aide des options de transformation de données 300+ et écrire les résultats dans plusieurs destinations avec une interface utilisateur très visuelle et facile à utiliser. Mary passe en revue les options et décide qu’il est judicieux d’utiliser Dataflow Gen 2 comme option de transformation préférée.

Scénario3

Adam est ingénieur données travaillant pour une grande entreprise de vente au détail qui utilise un lakehouse pour stocker et analyser ses données client. Dans le cadre de son travail, Adam est responsable de la création et de la maintenance des pipelines de données qui extraient, transforment et chargent des données dans le lakehouse. L’une des exigences métier de l’entreprise consiste à effectuer des analyses de révision des clients pour obtenir des informations sur les expériences de leurs clients et améliorer leurs services.

Adam décide que la meilleure option consiste à utiliser spark pour générer la logique d’extraction et de transformation. Spark fournit une plateforme informatique distribuée qui peut traiter de grandes quantités de données en parallèle. Il écrit une application Spark à l’aide de Python ou Scala, qui lit des données structurées, semi-structurées et non structurées de OneLake pour les avis et commentaires des clients. L’application nettoie, transforme et écrit des données dans des tables Delta dans le lakehouse. Les données sont ensuite prêtes à être utilisées pour l’analytique en aval.

Partager via

Guide de décision Microsoft Fabric : l'activité de copie, le flux de données ou Spark

Activité de copie, flux de données et propriétés Spark

Scénario1

Scénario2

Scénario3

Commentaires

Ressources supplémentaires

Partager via

Guide de décision Microsoft Fabric : l'activité de copie, le flux de données ou Spark

Activité de copie, flux de données et propriétés Spark

Scénario1

Scénario2

Scénario3

Contenu connexe

Commentaires

Ressources supplémentaires