Qu’est-ce que la mise en miroir dans Fabric ?
La mise en miroir dans Fabric est une solution à faible coût et à faible latence permettant de rassembler les données de différents systèmes dans une seule plate-forme d'analyse. Vous pouvez répliquer en continu votre parc de données existant directement dans OneLake de Fabric à partir de diverses bases de données Azure et sources de données externes.
Avec les données les plus à jour dans un format interrogeable dans OneLake, vous pouvez désormais utiliser tous les différents services de Fabric, tels que l’exécution d’analyses avec Spark, l’exécution de notebooks, l’ingénierie des données, la visualisation par le biais de rapports Power BI, etc.
La mise en miroir dans Fabric permet aux utilisateurs de profiter d'un produit hautement intégré, de bout en bout et simple d'utilisation, conçu pour simplifier vos besoins en matière d'analyse. Conçue pour l’ouverture et la collaboration entre Microsoft et les solutions technologiques qui peuvent lire le format de table Delta Lake open source, la mise en miroir est une solution clé en main à faible coût et à faible latence qui vous permet de créer un réplica de vos données dans OneLake, qui peut être utilisé pour tous vos besoins analytiques.
Les tables Delta peuvent ensuite être utilisées partout dans Fabric, ce qui permet aux utilisateurs d’accélérer leur parcours dans Fabric.
Pourquoi utiliser la mise en miroir dans Fabric ?
Aujourd’hui, de nombreuses organisations ont des données opérationnelles ou analytiques critiques situées dans des silos.
L’accès et l’utilisation de ces données nécessitent aujourd’hui des pipelines ETL complexes (extraire la charge de transformation), des processus métier et des silos de décision, créant :
- Accès restreint et limité aux données importantes, en constante évolution
- Friction entre les personnes, le processus et la technologie
- Temps d’attente longs pour créer des pipelines de données et des processus vers des données extrêmement importantes
- Aucune liberté d’utiliser les outils dont vous avez besoin pour analyser et partager confortablement des insights
- Manque de base appropriée pour que les gens partagent et collaborent sur des données
- Aucun format de données ouvert commun pour tous les scénarios analytiques : BI, IA, Intégration, Ingénierie et même Applications
La mise en miroir dans Fabric offre une expérience simple pour accélérer la durée de vie des insights et des décisions, et pour décomposer les silos de données entre les solutions technologiques :
- Réplication en temps quasi réel des données et des métadonnées dans un lac de données SaaS, avec analyses intégrées pour la BI et l'IA
La plateforme Microsoft Fabric repose sur une base de Software as a Service (SaaS), qui amène la simplicité et l’intégration à un tout nouveau niveau. Pour en savoir plus sur Microsoft Fabric, consultez Qu’est-ce que Microsoft Fabric ?
La mise en miroir crée trois éléments dans votre espace de travail Fabric :
- La mise en miroir gère la réplication des données et des métadonnées dans OneLake et la conversion vers Parquet, dans un format prêt pour l'analyse. Cela permet des scénarios en aval comme l'ingénierie des données, la science des données, et plus encore.
- Un Point de terminaison d’analytique SQL
- Un Modèle sémantique par défaut
Outre l’éditeur de requête, il existe un vaste écosystème d’outils, notamment SQL Server Management Studio (SSMS), l’extension mssql avec Visual Studio Code, et même GitHub Copilot.
Le partage permet de faciliter le contrôle d’accès et la gestion pour vous assurer que vous pouvez contrôler l’accès aux informations sensibles. Le partage permet également une prise de décision sécurisée et démocratisée au sein de votre organisation.
Types de mise en miroir
Fabric propose trois approches différentes pour importer des données dans OneLake via la mise en miroir.
- Mise en miroir de la base de données – La mise en miroir de bases de données dans Microsoft Fabric permet la réplication de bases de données et de tables entières, vous permettant ainsi de rassembler des données provenant de différents systèmes dans une seule plate-forme d'analyse.
- Mise en miroir des métadonnées – La mise en miroir des métadonnées dans Fabric synchronise les métadonnées (telles que les noms de catalogue, les schémas et les tables) au lieu de déplacer physiquement les données. Cette approche exploite des raccourcis, garantissant que les données restent dans leur source tout en étant facilement accessibles dans Fabric.
- Ouvrez la mise en miroir – La mise en miroir ouverte dans Fabric est conçue pour étendre la mise en miroir basée sur le format de table ouvert Delta Lake. Cette fonctionnalité permet à tout développeur d'écrire les données de modification de son application directement dans un élément de base de données en miroir dans Microsoft Fabric, basé sur l'approche de mise en miroir ouverte et les API publiques.
Actuellement, les bases de données externes suivantes sont disponibles :
Comment fonctionne la réplication en temps quasi réel de la mise en miroir de bases de données ?
La mise en miroir est activée en créant une connexion sécurisée à votre source de données opérationnelle. Vous choisissez de répliquer une base de données entière ou des tables individuelles et la mise en miroir conserve automatiquement vos données synchronisées. Une fois configurées, les données sont répliquées en continu dans OneLake pour la consommation d’analytique.
Voici les principes fondamentaux de la mise en miroir :
L’activation de la mise en miroir dans Fabric est simple et intuitive, sans avoir à créer de pipelines ETL complexes, à allouer d’autres ressources de calcul et à gérer le déplacement des données.
La mise en miroir dans Fabric est un service entièrement géré. Vous n’avez donc pas à vous soucier de l’hébergement, de la maintenance ou de la gestion de la réplication de la connexion mise en miroir.
Comment fonctionne la mise en miroir des métadonnées ?
La mise en miroir permet non seulement la réplication des données, mais peut également être réalisée via des raccourcis ou une mise en miroir des métadonnées plutôt qu'une réplication complète des données, ce qui permet aux données d'être disponibles sans les déplacer ou les dupliquer physiquement. Dans ce contexte, la mise en miroir fait référence à la réplication uniquement des métadonnées (telles que les noms de catalogue, les schémas et les tables) plutôt que des données elles-mêmes. Cette approche permet à Fabric de rendre les données provenant de différentes sources accessibles sans les dupliquer, simplifiant ainsi la gestion des données et minimisant les besoins de stockage.
Par exemple, lors de l’accès aux données enregistrées dans Unity Catalog, Fabric reflète uniquement la structure du catalogue d’Azure Databricks, ce qui permet d’accéder aux données sous-jacentes via des raccourcis. Cette méthode garantit que toutes les modifications apportées aux données sources sont instantanément reflétées dans Fabric sans nécessiter de déplacement de données, en maintenant la synchronisation en temps réel et en améliorant l'efficacité de l'accès aux informations à jour.
Comment fonctionne la mise en miroir ouverte ?
En plus de la mise en miroir permettant la réplication des données en créant une connexion sécurisée à votre source de données, vous pouvez également sélectionner un fournisseur de données existant ou écrire votre propre application pour transférer des données dans une base de données en miroir. Une fois que vous avez créé une base de données en miroir ouverte via l'API publique ou via le portail Fabric, vous pourrez obtenir une URL de zone de destination dans OneLake, où vous pourrez transférer les données de modification selon la spécification de mise en miroir ouverte.
Une fois que les données sont dans la zone d'atterrissage avec le format approprié, la réplication commencera à s'exécuter et gérera la complexité de la fusion des modifications avec les mises à jour, l'insertion et la suppression pour être reflétées dans les tables delta. Cette méthode garantit que toutes les données écrites dans la zone d'atterrissage seront immédiatement enregistrées et que les données dans Fabric seront à jour.
Partage
Le partage permet une facilité de contrôle d’accès et de gestion, tandis que les contrôles de sécurité tels que la sécurité au niveau des lignes (RLS) et la sécurité au niveau de l’objet (OLS), et plus encore, veillez à contrôler l’accès aux informations sensibles. Le partage permet également une prise de décision sécurisée et démocratisée au sein de votre organisation.
En partageant, les utilisateurs accordent à d'autres utilisateurs ou à un groupe d'utilisateurs l'accès à une base de données mise en miroir sans donner accès à l'espace de travail et au reste de ses éléments. Quand un utilisateur partage une base de données mise en miroir, il accorde également l’accès au point de terminaison d’analytique SQL et au modèle sémantique par défaut associé.
Pour plus d’informations, consultez Partager votre base de données mises en miroir et gérer les autorisations.
Requêtes entre plusieurs bases de données
Avec les données de votre base miroir stockées dans le OneLake, vous pouvez écrire des requêtes inter-bases de données, en joignant les données des bases miroirs, des entrepôts et des points de terminaison analytiques SQL des Lakehouses dans une seule requête T-SQL. Pour plus d’informations, consultez Écrire une requête sur une base de données croisée.
Par exemple, vous pouvez référencer la table à partir de bases de données et d’entrepôts mise en miroir à l’aide d’un nommage en trois parties. Dans l'exemple suivant, utilisez le nom en trois parties pour désigner ContosoSalesTable
dans l'entrepôt ContosoWarehouse
. À partir d’autres bases de données ou entrepôts, la première partie de la convention d’affectation de noms en trois parties SQL standard est le nom de la base de données mise en miroir.
SELECT *
FROM ContosoWarehouse.dbo.ContosoSalesTable AS Contoso
INNER JOIN Affiliation
ON Affiliation.AffiliationId = Contoso.RecordTypeID;
Ingénierie des données avec les données de votre base de données mise en miroir
Microsoft Fabric propose diverses fonctionnalités d'ingénierie des données pour garantir que vos données sont facilement accessibles, bien organisées et de haute qualité. À partir de l'Ingénierie des données de Fabric, vous pouvez :
- Créez et gérez vos données comme Spark à l'aide d'un lakehouse
- Concevoir des pipelines pour copier des données dans votre instance de lakehouse
- Utiliser les définitions de tâches Spark pour soumettre une tâche par lots/streaming au cluster Spark
- Utiliser des notebooks afin d’écrire du code pour l’ingestion, la préparation et la transformation des données
Science des données avec les données de votre base de données mise en miroir
Microsoft Fabric offre la Science des données Fabric pour permettre aux utilisateurs de mettre au point des flux de travail de science des données de bout en bout à des fins d’enrichissement des données et de perspective commerciale. Vous pouvez effectuer un large éventail d’activités dans l’ensemble du processus de science des données, allant de l’exploration, de la préparation et du nettoyage des données à l’expérimentation, à la modélisation, au scoring des modèles et à la distribution d’insights prédictifs aux rapports décisionnels.
Les utilisateurs de Microsoft Fabric peuvent accéder aux charges de travail Science des données. À partir de là, ils peuvent découvrir et accéder à diverses ressources pertinentes. Par exemple, ils peuvent créer des expériences, des modèles et des notebooks d’apprentissage automatique. Ils peuvent également importer des notebooks existants sur la page d’accueil Science des données.
Base de données SQL dans Fabric
Vous pouvez également créer et gérer directement une base de données SQL dans Microsoft Fabric (préversion) à l’intérieur du portail Fabric. Basée sur la base de données Azure SQL, la base de données SQL dans Fabric est automatiquement en miroir à des fins analytiques et vous permet de créer facilement votre base de données opérationnelle dans Fabric. La base de données SQL est l’emplacement des charges de travail OLTP dans Fabric et peut s’intégrer à l’intégration du contrôle de code source de Fabric.