Partager via


Guide de décision Microsoft Fabric : choisir un magasin de données

Utilisez ce guide de référence et les exemples de scénarios pour vous aider à choisir un magasin de données pour vos charges de travail Microsoft Fabric.

Propriétés de l'entrepôt de données

Utilisez ces informations pour comparer les magasins de données Fabric tels que l’entrepôt, lakehouse, Eventhouse, sql database et Power BI datamart, en fonction du volume de données, du type, de la personne du développeur, de l’ensemble de compétences, des opérations et d’autres fonctionnalités. Ces comparaisons sont organisées dans les deux tableaux suivants :

Tableau 1 sur 2 Lakehouse Entrepôt Eventhouse
Volume de données Illimité Illimité Illimité
type de données Non structuré
données semi-structurées,
données structurées
Données structurées,
données semi-structurées (JSON)
Non structuré
données semi-structurées,
données structurées
Personnage de développeur principal Ingénieur données, scientifique des données Développeur de l’entrepôt de données, architecte de données, ingénieur données, développeur de base de données Développeur d’applications, scientifique des données, ingénieur données
compétence de développement principale Spark (Scala, PySpark, Spark SQL, R) SQL Aucun code, KQL, SQL
Données organisées par Dossiers et fichiers, bases de données et tables Bases de données, schémas et tables Bases de données, schémas et tables
Opérations de lecture Spark, T-SQL T-SQL, Spark* KQL, T-SQL, Spark
Opérations d’écriture Spark (Scala, PySpark, Spark SQL, R) T-SQL KQL, Spark, écosystème de connecteurs
Transactions à plusieurs tables Non Oui Oui, pour l’ingestion multi-tables
interface de développement principal Notebooks Spark, définitions de travaux Spark Scripts SQL Ensemble de requêtes KQL, base de données KQL
Sécurité SNL, CLS**, niveau de table (T-SQL), aucun pour Spark au niveau de l’objet, RLS, CLS, DDL/DML, masquage dynamique des données SNL
Accéder aux données via des raccourcis Oui Oui, via le point de terminaison d’analytique SQL Oui
peut être une source pour les raccourcis Oui (fichiers et tables) Oui (tables) Oui
Interroger des éléments Oui Oui Oui
Analyse avancée Interface pour le traitement des données à grande échelle, le parallélisme intégré des données et la tolérance de panne Interface pour le traitement des données à grande échelle, le parallélisme intégré des données et la tolérance de panne Éléments natifs Time Series, capacités géospatiales et de requête complètes
Prise en charge avancée de la mise en forme Tables définies à l’aide de PARQUET, CSV, AVRO, JSON et n’importe quel format de fichier compatible Apache Hive Tables définies à l’aide de PARQUET, CSV, AVRO, JSON et n’importe quel format de fichier compatible Apache Hive Indexation complète pour le texte libre et les données semi-structurées comme JSON
latence d’ingestion Disponible instantanément pour les requêtes Disponible instantanément pour la requête L’ingestion en file d’attente et l’ingestion de streaming ont une latence de quelques secondes.

* Spark prend en charge la lecture à partir de tables à l’aide de raccourcis, ne prend pas encore en charge l’accès aux vues, procédures stockées, fonctions, etc.

Table 2 sur 2 base de données SQL Fabric Power BI Datamart
Volume de données 4 To Jusqu’à 100 Go
type de données Données structurées,
données semi-structurées,
Non structuré
Données structurées
Personnage de développeur principal Développeur IA, développeur d’applications, développeur de base de données, administrateur de base de données Scientifique des données, analyste de données
compétence de développement principale SQL Aucun code, SQL
Données organisées par Bases de données, schémas, tables Base de données, tables, requêtes
Opérations de lecture T-SQL Spark, T-SQL
Opérations d’écriture T-SQL Dataflows, T-SQL
Transactions à plusieurs tables Oui, conformité ACID complète Non
interface de développement principal Scripts SQL Power BI
Sécurité Niveau d’objet, RLS, CLS, DDL/DML, masquage dynamique des données Éditeur RLS intégré
Accéder aux données via des raccourcis Oui Non
peut être une source pour les raccourcis Oui (tables) Non
Interroger des éléments Oui Non
Analyses avancées Fonctionnalités analytiques T-SQL, données répliquées vers Delta Parquet dans OneLake pour l’analytique Interface pour le traitement des données avec réglage automatisé des performances
Prise en charge avancée de la mise en forme Prise en charge des tables pour OLTP, JSON, vecteur, graph, XML, spatial, clé-valeur Tables définies à l’aide de PARQUET, CSV, AVRO, JSON et n’importe quel format de fichier compatible Apache Hive
latence d’ingestion Disponible instantanément pour la consultation Disponible instantanément pour consultation

** Sécurité au niveau des colonnes disponible sur la plateforme lakehouse via un point de terminaison d’analytique SQL, à l’aide de T-SQL.

Scénarios

Passez en revue ces scénarios pour obtenir de l’aide sur le choix d’un magasin de données dans Fabric.

Scénario 1

Susan, développeur professionnel, est une nouveauté de Microsoft Fabric. Ils sont prêts à commencer à nettoyer, modéliser et analyser des données, mais doivent décider de créer un entrepôt de données ou un lakehouse. Après avoir examiné les détails du tableau précédent, les points de décision principaux sont l’ensemble de compétences disponible et la nécessité de transactions à plusieurs tables.

Susan a passé de nombreuses années à créer des entrepôts de données sur des moteurs de base de données relationnelles et est familiarisé avec la syntaxe et les fonctionnalités SQL. En pensant à la grande équipe, les principaux consommateurs de ces données sont également qualifiés en SQL et en outils d'analyse SQL. Susan décide d’utiliser un entrepôt de données Fabric, qui permet à l’équipe d’interagir principalement avec T-SQL, tout en permettant à tous les utilisateurs Spark de l’organisation d’accéder aux données.

Susan crée un entrepôt de données et interagit avec lui à l’aide de T-SQL comme ses autres bases de données SQL Server. La plupart du code T-SQL existant qu’elle a écrit pour créer son entrepôt sur SQL Server fonctionnera sur l’entrepôt de données Fabric pour faciliter la transition. Si elle choisit, elle peut même utiliser les mêmes outils qui fonctionnent avec ses autres bases de données, comme SQL Server Management Studio. À l’aide de l’éditeur SQL dans le portail Fabric, Susan et d’autres membres de l’équipe écrivent des requêtes analytiques qui référencent d’autres entrepôts de données et tables Delta dans lakehouses simplement en utilisant des noms en trois parties pour effectuer des requêtes inter-bases de données.

Scénario 2

Rob, ingénieur données, doit stocker et modéliser plusieurs téraoctets de données dans Fabric. L’équipe a un mélange de compétences PySpark et T-SQL. La plupart de l’équipe exécutant des requêtes T-SQL sont des consommateurs et n’ont donc pas besoin d’écrire des instructions INSERT, UPDATE ou DELETE. Les développeurs restants sont à l’aise dans les notebooks et, étant donné que les données sont stockées dans Delta, elles sont en mesure d’interagir avec une syntaxe SQL similaire.

Rob décide d’utiliser un lakehouse, ce qui permet à l’équipe d’ingénierie des données de mettre à profit ses compétences variées sur les données, tout en offrant aux membres de l’équipe hautement qualifiés en T-SQL la possibilité d’exploiter les données.

Scénario 3

Ash, un développeur citoyen, est un développeur Power BI. Ils connaissent Excel, Power BI et Office. Ils doivent créer un produit de données pour une unité commerciale. Ils savent qu’ils n’ont pas tout à fait les compétences nécessaires pour créer un entrepôt de données ou un lakehouse, et ceux-ci semblent être trop pour leurs besoins et leurs volumes de données. Ils passent en revue les détails du tableau précédent et voient que les principaux points de décision sont leurs propres compétences et leur besoin d’un libre-service, aucune fonctionnalité de code et le volume de données de moins de 100 Go.

Ash travaille avec des analystes d’entreprise familiarisés avec Power BI et Microsoft Office, et sait qu’ils disposent déjà d’un abonnement de capacité Premium. Comme ils pensent à leur équipe plus grande, ils réalisent que les principaux consommateurs de ces données sont des analystes, familiarisés avec les outils analytiques sans code et SQL. Ash décide d’utiliser un datamart Power BI, ce qui permet à l’équipe de développer rapidement la fonctionnalité grâce à une expérience sans code. Les requêtes peuvent être exécutées via Power BI et T-SQL, tout en permettant également à tous les utilisateurs Spark de l’organisation d’accéder aux données.

Scénario 4

Daisy est analyste métier expérimenté avec l’utilisation de Power BI pour analyser les goulots d’étranglement de la chaîne d’approvisionnement pour une grande chaîne de vente au détail mondiale. Ils doivent créer une solution de données évolutive qui peut gérer des milliards de lignes de données et qui peuvent être utilisées pour créer des tableaux de bord et des rapports qui peuvent être utilisés pour prendre des décisions métier. Les données proviennent d’usines, de fournisseurs, d’expéditeurs et d’autres sources dans différents formats structurés, semi-structurés et non structurés.

Daisy décide d’utiliser un Eventhouse en raison de sa scalabilité, de ses temps de réponse rapide, de fonctionnalités d’analytique avancées, notamment l’analyse de série chronologique, les fonctions géospatiales et le mode de requête direct rapide dans Power BI. Les requêtes peuvent être exécutées à l’aide de Power BI et de KQL pour comparer les périodes actuelles et précédentes, identifier rapidement les problèmes émergents ou fournir une analyse géospatinelle des routes terrestres et maritimes.

Scénario 5

Kirby est un architecte d’applications expérimenté dans le développement d’applications .NET pour les données opérationnelles. Ils ont besoin d’une base de données à accès concurrentiel élevé avec une conformité complète des transactions ACID et des clés étrangères fortement appliquées pour l’intégrité relationnelle. Kirby souhaite bénéficier du réglage automatique des performances pour simplifier la gestion quotidienne des bases de données.

Kirby décide d’une base de données SQL dans Fabric, avec le même moteur de base de données SQL qu’Azure SQL Database. Les bases de données SQL dans Fabric sont automatiquement mises à l’échelle pour répondre à la demande tout au long de la journée. Ils disposent de la capacité complète des tables transactionnelles et de la flexibilité des niveaux d’isolation des transactions à partir d’un format sérialisable pour lire une capture instantanée validée. La base de données SQL dans Fabric crée et supprime automatiquement des index non cluster en fonction des signaux forts des plans d’exécution observés au fil du temps.

Dans le scénario de Kirby, les données de l’application opérationnelle doivent être jointes à d’autres données dans Fabric : dans Spark, dans un entrepôt et à partir d’événements en temps réel dans un Eventhouse. Chaque base de données Fabric inclut un point de terminaison d’analytique SQL, afin que les données soient accessibles en temps réel à partir de Spark ou avec des requêtes Power BI à l’aide du mode DirectLake. Ces solutions de création de rapports soulagent la base de données opérationnelle principale de la surcharge des charges de travail analytiques et évitent la dénormalisation. Kirby dispose également de données opérationnelles existantes dans d’autres bases de données SQL et doit importer ces données sans transformation. Pour importer des données opérationnelles existantes sans conversion de type de données, Kirby conçoit des pipelines de données avec Fabric Data Factory pour importer des données dans la base de données Fabric SQL.