Décrire les concepts de base de la modélisation de données
Les modèles analytiques vous permettent de structurer les données pour prendre en charge l’analyse. Les modèles sont basés sur des tables de données associées et définissent les valeurs numériques à analyser ou à signaler (appelées mesures) ainsi que les entités selon lesquelles vous souhaitez les agréger (appelées dimensions). Par exemple, un modèle peut inclure une table contenant des mesures numériques pour les ventes (par exemple le chiffre d’affaires ou la quantité) et des dimensions pour les produits, les clients et le temps. Cela vous permet d’agréger les mesures de vente sur une ou plusieurs dimensions (par exemple pour identifier le chiffre d’affaires total par client ou le nombre total d’articles vendus par produit et par mois). Sur le plan conceptuel, le modèle forme une structure multidimensionnelle, communément appelée cube, dans laquelle tout point d’intersection des dimensions représente une mesure agrégée de ces dimensions.
Remarque
Même si nous désignons généralement un modèle analytique sous le nom de cube, il peut exister plus (ou moins) de trois dimensions. Il est juste un peu difficile pour nous de visualiser plus de trois dimensions !
Tables et schéma
Les tables de dimension représentent les entités en fonction desquelles vous souhaitez agréger des mesures numériques, par exemple un produit ou un client. Chaque entité est représentée par une ligne avec une valeur de clé unique. Les colonnes restantes représentent les attributs d’une entité. Par exemple, les produits ont des noms et des catégories, et les clients ont des adresses et des villes. Il est courant dans la plupart des modèles analytiques d’inclure une dimension Temps pour pouvoir agréger les mesures numériques associées aux événements liés au temps.
Les mesures numériques qui sont agrégées par les différentes dimensions du modèle sont stockées dans des tables de faits. Chaque ligne d’une table de faits représente un événement enregistré auquel des mesures numériques sont associées. Par exemple, la table Sales du schéma ci-dessous représente les transactions de vente d’articles individuels. Elle comprend des valeurs numériques pour la quantité vendue et le chiffre d’affaires.
Ce type de schéma, où une table de faits est liée à une ou plusieurs tables de dimension, est appelé schéma en étoile (imaginez qu’il existe cinq dimensions liées à une seule table de faits : le schéma forme une étoile à cinq branches !). Vous pouvez également définir un schéma plus complexe dans lequel les tables de dimension sont liées à des tables supplémentaires contenant plus de détails (par exemple, vous pourriez représenter des attributs de catégories de produits dans une table Catégoriedistincte associée à la table Produit, auquel cas la conception est appelée schéma en flocon. Le schéma des tables de faits et de dimension permet de créer un modèle analytique dans lequel les agrégations de mesures de toutes les dimensions sont précalculées. Cela permet d’accélérer les performances des activités d’analyse et de création de rapports au lieu de calculer les agrégations à chaque fois).
Hiérarchies d’attribut
L’un des derniers éléments à prendre en compte à propos des modèles analytiques est la création de hiérarchies d’attribut. Elles vous permettent de monter dans la hiérarchie (« drill up ») ou de descendre dans la hiérarchie (« drill down ») pour trouver des valeurs agrégées à différents niveaux dans une dimension hiérarchique. Par exemple, prenons les attributs des tables de dimension dont nous avons parlé. Dans la table Product, vous pouvez former une hiérarchie dans laquelle chaque catégorie peut inclure plusieurs produits nommés. De même, dans la table Customer, une hiérarchie peut être formée pour représenter plusieurs clients nommés dans chaque ville. Enfin, dans la table Time, vous pouvez former une hiérarchie basée sur l’année, le mois et le jour. Vous pouvez créer le modèle avec des valeurs préagrégées pour chaque niveau d’une hiérarchie. Cela vous permet de changer rapidement l’étendue de votre analyse, par exemple en visualisant le total des ventes par année, puis en effectuant une décomposition plus détaillée du total ventes par mois.
Modélisation analytique dans Microsoft Power BI
Vous pouvez utiliser Power BI pour définir un modèle analytique à partir de tables de données, lesquelles peuvent être importées à partir d’une ou de plusieurs sources de données. Vous pouvez ensuite utiliser l’interface de modélisation de données sous l’onglet Modèle de Power BI Desktop pour définir votre modèle analytique en créant des relations entre les tables de faits et de dimension, en définissant des hiérarchies, en définissant les types de données et les formats d’affichage des champs des tables, et en gérant d’autres propriétés de vos données qui permettent de définir un modèle riche à des fins d’analyse.