Identifier les services de données
Microsoft Azure est une plateforme cloud qui gère les applications et l’infrastructure informatique pour certaines des plus grandes organisations au monde. Elle comprend de nombreux services qui permettent de prendre en charge des solutions cloud, notamment les charges de travail de données transactionnelles et analytiques.
Voici une description de certains des services cloud les plus couramment utilisés pour les données.
Notes
Cette rubrique couvre uniquement certains des services de données les plus couramment utilisés pour les solutions transactionnelles et analytiques modernes. D’autres services sont également disponibles.
Azure SQL
Azure SQL est le nom collectif d’une famille de solutions de bases de données relationnelles basées sur le moteur de base de données Microsoft SQL Server. Les services Azure SQL spécifiques comprennent :
- Azure SQL Database – une base de données PaaS (platform-as-a-service) complètement managée et hébergée dans Azure.
- Azure SQL Managed Instance – Instance hébergée de SQL Server avec maintenance automatisée, ce qui permet une configuration plus flexible qu’Azure SQL DB, mais avec une plus grande responsabilité administrative pour le propriétaire.
- Azure SQL VM – Machine virtuelle avec une installation de SQL Server, permettant une configuration maximale avec une responsabilité de gestion complète.
En général, les administrateurs de bases de données provisionnent et gèrent les systèmes de base de données Azure SQL pour prendre en charge les applications de ligne de business (LOB) qui ont besoin de stocker des données transactionnelles.
Les ingénieurs Données peuvent utiliser des systèmes de base de données Azure SQL comme sources pour les pipelines de données qui effectuent les opérations d’extraction, de transformationet de chargement (ETL) pour ingérer les données transactionnelles dans un système analytique.
Les analystes Données peuvent interroger directement les bases de données Azure SQL pour créer des rapports. Toutefois, dans les grandes organisations, les données sont généralement associées à des données provenant d’autres sources d’un magasin de données analytiques pour prendre en charge l’analytique de l’entreprise.
Bases de données open source dans Azure
Azure comprend des services managés pour les systèmes de bases de données relationnelles open source connus comme :
Azure Database pour MySQL - Système de gestion de base de données open-source facile à utiliser, couramment utilisé dans les applications Linux, Apache, MySQL et PHP (pile LAMP).
Azure Database pour MariaDB - Système de gestion de base de données plus récent, créé par les développeurs d’origine de MySQL. Depuis sa création, le moteur de base de données a été réécrit et optimisé pour améliorer le niveau de performance. MariaDB offre une compatibilité avec Oracle Database (un autre système de gestion de base de données commercial populaire).
Azure Database pour PostgreSQL - Base de données relationnel-objet hybride. Vous pouvez stocker des données dans des tables relationnelles, mais une base de données PostgreSQL vous permet également de stocker des types de données personnalisés avec leurs propres propriétés non relationnelles.
Comme avec les systèmes de base de données Azure SQL, les bases de données relationnelles open source sont gérées par les administrateurs de bases de données pour prendre en charge les applications transactionnelles et fournissent une source de données pour les ingénieurs Données qui créent des pipelines pour les solutions analytiques et pour les analystes Données qui créent des rapports.
Azure Cosmos DB
Azure Cosmos DB est un système de base de données non relationnelle (NoSQL) à l’échelle mondiale qui prend en charge plusieurs interfaces de programmation d’applications (API), ce qui vous permet de stocker et de gérer des données sous forme de documents JSON, paires clé-valeur, familles de colonnes et graphes.
Dans certaines organisations, les instances Cosmos DB peuvent être provisionnées et gérées par un administrateur de base de données. Toutefois, les développeurs de logiciels gèrent souvent le stockage de données NoSQL dans le cadre de l’architecture globale des applications. Les ingénieurs de données ont souvent besoin d’intégrer des sources de données Cosmos DB dans des solutions analytiques d’entreprise qui prennent en charge la modélisation et la création de rapports par les analystes Données.
Stockage Azure
Stockage Azure est un service Azure essentiel qui vous permet de stocker des données dans :
- Conteneurs de blobs - Stockage scalable et rentable pour les fichiers binaires.
- Partages de fichiers - Partages de fichiers réseau comme ceux que vous trouvez généralement dans les réseaux d’entreprise.
- Tables - Stockage clé-valeur pour les applications qui doivent lire et écrire des valeurs de données rapidement.
Les ingénieurs Données utilisent le Stockage Azure pour héberger les lacs de données - Stockage de blobs avec un espace de noms hiérarchique qui permet d’organiser les fichiers dans des dossiers dans un système de fichiers distribué.
Azure Data Factory
Azure Data Factory est un service Azure qui vous permet de définir et de planifier des pipelines de données pour transférer et transformer des données. Vous pouvez intégrer vos pipelines à d’autres services Azure, ce qui vous permet d’ingérer des données à partir de magasins de données cloud, de traiter les données à l’aide d’un calcul basé sur le cloud et de conserver les résultats dans un autre magasin de données.
Azure Data Factory est utilisé par les ingénieurs Données pour créer des solutions d’extraction, de transformation et de chargement (ETL) qui remplissent des magasins de données analytiques avec des données provenant de systèmes transactionnels de l’organisation.
Microsoft Fabric
Microsoft Fabric est une plateforme d’analytique SaaS (Software-as-a-Service) unifiée basée sur un lakehouse ouvert et régi, qui inclut des fonctionnalités de support :
- Ingestion des données et ETL
- Analytique du data lakehouse
- Analytique de l’entrepôt de données
- Science des données et Machine Learning
- Analytique en temps réel
- Visualisation des données
- Gouvernance et gestion des données
- Insights basés sur l’intelligence artificielle
Les ingénieurs données peuvent utiliser Microsoft Fabric pour créer une solution d’analytique données unifiée qui combine des pipelines d’ingestion de données, des entrepôts de données, des analytiques en temps réel, du business intelligence et des insights basés sur l’intelligence artificielle via un seul service stocké de manière centralisée avec Microsoft OneLake.
Azure Databricks
Azure Databricks est une version intégrée à Azure de la plateforme populaire Databricks, qui combine la plateforme de traitement de données Apache Spark avec la sémantique des bases de données SQL et une interface de gestion intégrée pour permettre l’analyse de données à grande échelle.
Les ingénieurs Données peuvent utiliser des compétences Databricks et Spark existantes pour créer des magasins de données analytiques dans Azure Databricks.
Les analystes de données peuvent utiliser le support natif des notebooks dans Azure Databricks pour interroger et visualiser les données dans une interface web facile à utiliser.
Azure Stream Analytics
Azure Stream Analytics est un moteur de traitement en temps réel des flux qui capture un flux de données en entrée, applique une requête pour extraire et manipuler les données du flux d’entrée, et écrit les résultats dans une sortie pour l’analyse ou le traitement ultérieur.
Les ingénieurs de données peuvent intégrer Azure Stream Analytics dans des architectures d’analytique données qui capturent les données de streaming pour l’ingestion dans un magasin de données analytiques ou pour une visualisation en temps réel.
Explorateur de données Azure
Azure Data Explorer est une plateforme d’analytique Big Data entièrement managée et autonome qui offre des requêtes hautes performances sur les données de journal et de télémétrie.
Les analystes Données peuvent utiliser Azure Data Explorer pour interroger et analyser les données qui incluent un attribut d’horodatage comme ceux que vous trouvez généralement dans les fichiers journaux et les données de télémétrie Internet des objets (IoT).
Microsoft Purview
Microsoft Purview offre une solution pour la gouvernance et la découvrabilité des données à l’échelle de l’entreprise. Vous pouvez utiliser Microsoft Purview pour créer une carte de vos données et suivre la traçabilité des données sur plusieurs sources de données et systèmes, ce qui vous permet de trouver des données fiables pour l’analyse et la création de rapports.
Les ingénieurs Données peuvent utiliser Microsoft Purview pour mettre en œuvre la gouvernance des données au sein de l’entreprise et garantir l’intégrité des données utilisées pour prendre en charge les charges de travail analytiques.