Comprendre les flux de données Gen2 dans Microsoft Fabric

Effectué

Dans notre scénario, vous devez développer un modèle sémantique capable de normaliser les données et de fournir un accès à l’entreprise. En utilisant des flux de données Gen2, vous pouvez vous connecter aux différentes sources de données, puis préparer et transformer les données. Vous pouvez placer les données directement dans votre lakehouse ou utiliser un pipeline de données pour d’autres destinations.

Qu’est-ce qu’un flux de données ?

Les flux de données sont un type d’outil ETL (Extract, Transform, Load) cloud qui permet de créer et d’exécuter des processus de transformation de données scalables.

Les flux de données Gen2 vous permettent d’extraire des données de différentes sources, de les transformer avec un large éventail d’opérations de transformation et de les charger dans une destination. Power Query Online met également à votre disposition une interface visuelle pour effectuer ces tâches.

Par essence, un flux de données inclut toutes les transformations nécessaires pour réduire le temps de préparation des données, puis peut être chargé dans une nouvelle table, inclus dans un pipeline de données ou utilisé comme source de données par les analystes Données.

Utilisation des flux de données Gen2

Traditionnellement, les ingénieurs Données consacrent beaucoup de temps à extraire, transformer et charger des données dans un format consommable pour l’analytique en aval. L’objectif des flux de données Gen2 est de fournir un moyen simple et réutilisable d’effectuer des tâches ETL avec Power Query Online.

Si vous choisissez uniquement d’utiliser un pipeline de données, vous copiez des données, puis utilisez votre langage de programmation favori pour extraire, transformer et charger les données. Vous pouvez également créer au préalable un flux de données Gen2 pour extraire et transformer les données. Vous pouvez également charger les données dans un lakehouse et d’autres destinations. Désormais, l’entreprise peut facilement consommer le modèle sémantique organisé.

L’ajout d’une destination de données à votre flux de données est facultatif et le flux de données conserve toutes les étapes de transformation. Pour effectuer d’autres tâches ou charger des données dans une autre destination après la transformation, créez un pipeline de données et ajoutez l’activité de flux de données Gen2 à votre orchestration.

Une autre option peut consister à utiliser un pipeline de données et un flux de données Gen2 pour le processus ELT (Extract, Load, Transform). Pour cet ordre, vous utiliseriez un pipeline afin d’extraire les données et de les charger dans votre destination préférée telle que le lakehouse. Ensuite, vous créeriez un flux de données Gen2 pour vous connecter aux données de Lakehouse afin de nettoyer et de transformer des données. Dans ce cas, vous proposeriez le flux de données en tant que modèle sémantique organisé pour permettre aux Analystes Données de développer des rapports.

Les flux de données peuvent également être partitionnés horizontalement. Une fois que vous avez créé un flux de données global, les Analystes Données peuvent utiliser des flux de données afin de créer des modèles sémantiques spécialisés pour des besoins spécifiques.

Les flux de données vous permettent de promouvoir une logique ETL réutilisable qui évite la nécessité de créer plus de connexions à votre source de données. Les flux de données offrent une grande variété de transformations et peuvent être exécutés manuellement, selon une planification d’actualisation ou dans le cadre d’une orchestration de pipeline de données.

Conseil

Rendez votre flux de données découvrable afin que les analystes Données puissent également s’y connecter via Power BI Desktop. Cela réduit la préparation des données pour le développement de rapports.

Avantages et limitations

Il existe plusieurs façons d’obtenir des données ETL ou ELT dans Microsoft Fabric. Tenez compte des avantages et des limitations de l’utilisation des flux de données Gen2.

Avantages :

  • Étendez les données avec des données cohérentes, telles qu’une table de dimension de date standard.
  • Autoriser les utilisateurs en libre-service à accéder à un sous-ensemble de l’entrepôt de données séparément.
  • Optimisez les performances avec des flux de données, qui permettent d’extraire les données une fois en vue de les réutiliser, ce qui réduit le temps d’actualisation des données pour les sources plus lentes.
  • Simplifiez la complexité des sources de données en exposant uniquement les flux de données à des groupes d’analystes plus importants.
  • Assurez la cohérence et la qualité des données en permettant aux utilisateurs de nettoyer et de transformer des données avant de les charger dans une destination.
  • Simplifiez l’intégration des données en fournissant une interface low-code qui ingère les données de différentes sources.

Limites :

  • Les flux de données ne remplacent pas un entrepôt de données.
  • Ne prend pas en charge la sécurité au niveau des lignes.
  • Un espace de travail à capacité structurelle est requis.