Explorer les magasins de données analytiques

Effectué

Il existe deux types courants de magasins de données analytiques.

Entrepôts de données

Diagramme d’un entrepôt de données avec un schéma en étoile.

Un entrepôt de données est une base de données relationnelle dans laquelle les données sont stockées dans un schéma qui est optimisé pour l’analytique données plutôt que pour les charges de travail transactionnelles. En règle générale, les données d’un magasin transactionnel sont transformées dans un schéma où les valeurs numériques sont stockées dans des tables de faits centrales, lesquelles sont liées à une ou plusieurs tables de dimension qui représentent des entités par lesquelles les données peuvent être agrégées. Par exemple, une table de faits peut contenir des données de commande, qui peuvent être agrégées par les dimensions client, produit, magasin et heure (ce qui vous permet, par exemple, de rechercher facilement le chiffre d’affaires total mensuel des ventes par produit pour chaque magasin). Ce type de schéma de table de faits et de dimensions est appelé schéma en étoile, lequel est souvent étendu en schéma en flocon via l’ajout de tables supplémentaires associées aux tables de dimensions pour représenter des hiérarchies dimensionnelles (par exemple, le produit peut être associé à des catégories de produits). Un entrepôt de données est un bon choix lorsque vous avez des données transactionnelles qui peuvent être organisées dans un schéma structuré de tables, et que vous souhaitez utiliser SQL pour les interroger.

Lacs de données

Diagramme d’un lac de données dans lequel les fichiers sont représentés par des tables.

Un lac de données est un magasin de fichiers, généralement sur un système de fichiers distribués pour un accès haute performance aux données. Des technologies comme Spark ou Hadoop sont souvent utilisées pour traiter les requêtes sur les fichiers stockés et retourner les données à des fins de rapport et d’analytique. Ces systèmes appliquent souvent une approche de schéma sur lecture pour définir des schémas tabulaires sur des fichiers de données semi-structurées quand les données sont lues pour être analysées, sans appliquer de contraintes lorsqu’elles sont stockées. Les lacs de données sont parfaits pour prendre en charge un mélange de données structurées, semi-structurées et même non structurées que vous souhaitez analyser sans devoir mettre en application un schéma lorsque les données sont écrites dans le magasin.

Approches hybrides

Vous pouvez utiliser une approche hybride qui combine les fonctionnalités des lacs de données et des entrepôts de données dans un data lakehouse. Les données brutes sont stockées en tant que fichiers dans un lac de données, et les points de terminaison d’analytique SQL Microsoft Fabric les exposent sous forme de tables, qui peuvent être interrogées à l’aide de SQL. Lorsque vous créez un Lakehouse avec Microsoft Fabric, un point de terminaison d’analytique SQL est automatiquement créé. Les lakehouses de données sont une approche relativement nouvelle dans les systèmes basés sur Spark et sont activés via des technologies comme Delta Lake, qui ajoute des fonctionnalités de stockage relationnel à Spark pour vous permettre de définir des tables qui appliquent des schémas et une cohérence transactionnelle, de prendre en charge les sources de données chargées par lots et de streaming, et de fournir une API SQL pour les interroger.

Services Azure pour les magasins analytiques

Dans Azure, vous pouvez utiliser plusieurs services pour implémenter un magasin analytique à grande échelle, notamment :

Capture d’écran d’un logo Microsoft Fabric.Microsoft Fabric est une solution unifiée de bout en bout pour l’analytique données à grande échelle. Il regroupe plusieurs technologies et fonctionnalités, ce qui vous permet de combiner l’intégrité et la fiabilité des données d’un entrepôt de données relationnelles SQL Server scalable et hautes performances avec la flexibilité d’un lac de données et d’Apache Spark open source. Il offre également une prise en charge native de l’analytique des journaux et de la télémétrie avec l’intelligence en temps réel Microsoft Fabric, ainsi que des pipelines de données intégrés pour l’ingestion et la transformation des données. Chaque expérience de produit Microsoft Fabric possède sa propre page d’accueil, par exemple la page d’accueil Data Factory. Chaque page d’accueil Fabric affiche les éléments que vous créez et que vous êtes autorisé à utiliser à partir de tous les espaces de travail auxquels vous accédez. Microsoft Fabric est un excellent choix lorsque vous souhaitez créer une solution d’analytique unifiée unique.

Capture d’écran d’un logo Azure Databricks.Azure Databricks est une implémentation Azure de la fameuse plateforme Databricks. Databricks est une solution d’analytique données complète qui repose sur Apache Spark et qui offre des fonctionnalités SQL natives, ainsi que des clusters Spark à charge de travail optimisée pour l’analytique données et la science des données. Databricks fournit une interface utilisateur interactive dans laquelle le système peut être géré et les données peuvent être explorées dans des notebooks interactifs. Parce qu’il est couramment utilisé sur plusieurs plateformes cloud, vous envisagerez peut-être de vous servir d’Azure Databricks comme magasin analytique si vous voulez exploiter l’expertise existante sur la plateforme ou, si vous avez besoin de travailler dans un environnement multicloud ou de prendre en charge une solution portable dans le cloud.

Remarque

Chacun de ces services peut être vu comme un magasin de données analytique, dans le sens où ils fournissent un schéma et une interface par le biais desquels les données peuvent être interrogées. Toutefois, dans de nombreux cas, les données sont en fait stockées dans un lac de données et le service est utilisé pour traiter des données et exécuter des requêtes. Certaines solutions peuvent même combiner l’utilisation de ces services. Un processus d’ingestion ELT (extraction, chargement et transformation) peut copier les données dans le lac de données, puis utiliser l’un de ces services pour transformer les données, et un autre pour les interroger. Par exemple, un pipeline peut utiliser un notebook s’exécutant dans Azure Databricks pour traiter un grand volume de données dans le lac de données, puis le charger dans des tables d’un entrepôt Microsoft Fabric.