Cette solution utilise une instance locale de Qlik pour répliquer des sources de données locales sur Azure en temps réel.
Notes
Prononcez « Qlik » comme « clic ».
Apache® et Apache Kafka® sont des marques déposées ou des marques commerciales de l’Apache Software Foundation aux États-Unis et/ou dans d’autres pays. L’utilisation de ces marques n’implique aucune approbation de l’Apache Software Foundation.
Architecture
Téléchargez un fichier Visio de cette architecture.
Workflow
- Agent hôte : l’agent hôte sur le système local capture les informations de journal des modifications des magasins de données DB2, IMS et VSAM, puis les transmet au serveur de réplication Qlik.
- Serveur de réplication : le logiciel serveur de réplication Qlik transmet les informations de journal des modifications à Kafka et à Azure Event Hubs. Dans cet exemple, Qlik est local, mais peut être déployé à la place sur une machine virtuelle dans Azure.
- Ingestion de flux : Kafka et Event Hubs fournissent des répartiteurs de messages pour recevoir et stocker les informations de journal des modifications.
- Kafka Connect : l’API Kafka Connect est utilisée pour obtenir des données de Kafka pour la mise à jour de magasins de données Azure, tels qu’Azure Data Lake Storage, Azure Databricks et Azure Synapse Analytics.
- Data Lake Storage : Data Lake Storage est une zone intermédiaire pour les données de journal des modifications.
- Databricks : Databricks traite les données de journal des modifications et met à jour les fichiers correspondants sur Azure.
- Services de données Azure : Azure fournit une série de services de stockage de données efficaces. Parmi ceux-ci, on peut citer les suivants :
Services de bases de données relationnelles :
- SQL Server sur les machines virtuelles Azure
- Azure SQL Database
- Azure SQL Managed Instance
- Azure Database pour PostgreSQL
- Azure Database pour MySQL
- Azure Cosmos DB
De nombreux facteurs doivent être pris en compte lors du choix d'un service de stockage de données : type de charge de travail, requêtes de bases de données croisées, exigences de validation en deux phases, capacité d’accès au système de fichiers, quantité de données, débit requis, latence, etc.
Services de bases de données non relationnelles Azure : Azure Cosmos DB, une base de données NoSQL, offre une réponse rapide, une scalabilité automatique et une vitesse garantie, quelle que soit l’échelle.
Azure Synapse Analytics : Synapse Analytics est un service d’analytique qui réunit l’intégration de données, l’entreposage de données d’entreprise et des fonctionnalités analytiques pour le Big Data. Il vous permet d’interroger les données en utilisant des ressources serverless ou dédiées à grande échelle.
Microsoft Fabric : Microsoft Fabric est une solution d’analyse tout-en-un pour les entreprises. Il couvre tous les aspects, du déplacement des données à la science des données, en passant par l’analyse en temps réel et BI. Elle offre une suite complète de services, notamment le lac de données, l’ingénierie des données et l’intégration des données.
Composants
Cette architecture se compose de plusieurs Azure Cloud Services et est divisée en quatre catégories de ressources : mise en réseau et identité, application, stockage et surveillance. Les services pour chacun et leurs rôles sont décrits dans les sections suivantes.
Réseau et identité
- Azure ExpressRoute étend vos réseaux locaux aux services cloud Microsoft via une connexion privée d’un fournisseur de connectivité. ExpressRoute vous permet d’établir des connexions à des services cloud, tels que Microsoft Azure et Office 365.
- Une passerelle VPN Azure est un type spécifique de passerelle de réseau virtuel qui achemine du trafic chiffré entre un réseau virtuel Azure et un emplacement local via l’Internet public.
- Microsoft Entra ID est un service de gestion des identités et des accès qui peut se synchroniser avec un Active Directory local.
Application
- Azure Event Hubs est une plateforme de diffusion en continu de Big Data et un service d’ingestion d’événements capable de stocker des messages de modification de données Db2, IMS et VSAM. Il peut recevoir et traiter des millions de messages par seconde. Les données envoyées à un hub d’événements peuvent être transformées et stockées à l’aide d’un fournisseur d’analyse en temps réel ou d’un adaptateur personnalisé.
- Apache Kafka est une plateforme de diffusion en continu d’événements distribués open source qui est utilisée pour les pipelines de données hautes performances, l’analyse de diffusion en continu, l’intégration de données et les applications stratégiques. Il est possible de l’intégrer facilement avec l’intégration de données Qlik pour stocker des données de changement DB2.
- Azure Data Lake Storage Azure Data Lake Storage fournit un lac de données pour le stockage de données de journal des modifications locales traitées.
- Azure Databricks est un outil d’ingénierie de données dans le cloud basé sur Apache Spark. Il peut traiter et transformer des quantités considérables de données. Vous pouvez explorer les données à l’aide de modèles de Machine Learning. Les travaux peuvent être écrits dans les langages R, Python, Java, Scala et Spark SQL.
Stockage
- Stockage Azure est un ensemble de services cloud hautement évolutifs et sécurisés pour les données, les applications et les charges de travail. Il comprend Azure Files, Stockage Table Azure et Stockage File d’attente Azure. Azure Files est souvent un outil efficace pour la migration des charges de travail des mainframes.
- Azure Cosmos DB est une base de données NoSQL entièrement managée avec des API open source pour MongoDB et Cassandra. Une application possible est la migration des données non tabulaires des mainframes vers Azure.
Supervision
- Azure Monitor offre une solution complète pour collecter, analyser et exploiter les données de télémétrie d’environnements cloud et locaux. Il inclut :
- Application Insights pour l’analyse et la présentation de télémétrie.
- Monitor Logs qui collecte et organise les données de journal et de performances de ressources surveillées. Les données provenant de diverses sources telles que des journaux de plateforme de services Azure, les données de journal et de performances d’agents de machines virtuelles, ainsi que les données d’utilisation et de performances d’applications peuvent être consolidées dans un espace de travail unique pour être analysées ensemble. L’analyse utilise un langage de requête sophistiqué capable d’analyser rapidement des millions d’enregistrements.
- Log Analytics, qui peut interroger les journaux de surveillance. Un puissant langage de requête vous permet de joindre des données provenant de plusieurs tables, d’agréger des jeux de données volumineux et d’effectuer des opérations complexes avec un minimum de code.
Autres solutions
- Le diagramme montre Qlik installé localement, une meilleure pratique recommandée pour rester proche des sources de données locales. Une alternative consiste à installer Qlik dans le cloud sur une machine virtuelle Azure.
- Une intégration de données Qlik peut livrer directement à Databricks sans passer par Kafka ou un hub d’événements.
- Une intégration de données Qlik ne peut pas répliquer directement sur Azure Cosmos DB, mais vous pouvez intégrer Azure Cosmos DB à un hub d’événements en utilisant une architecture d’approvisionnement en événements.
Détails du scénario
De nombreuses organisations utilisent des systèmes mainframe et midrange pour exécuter des charges de travail exigeantes et critiques. La plupart des applications utilisent une ou plusieurs bases de données, et la plupart des bases de données sont partagées par de nombreuses applications, souvent sur plusieurs systèmes. Dans ce type d’environnement, la modernisation du cloud signifie que des données locales doivent être fournies à des applications basées sur le cloud. Par conséquent, la réplication des données devient une tactique de modernisation importante.
La plateforme d’intégration de données Qlik inclut la réplication Qlik qui assure la réplication des données. Elle utilise la capture des changements de données (CDC) pour répliquer des magasins de données locaux en temps réel sur Azure. Des changements de données peuvent provenir de journaux Db2, IMS et VSAM. Cette technique de réplication élimine les chargements en bloc par lots peu pratiques. Cette solution utilise une instance locale de Qlik pour répliquer des sources de données locales sur Azure en temps réel.
Cas d’usage potentiels
Cette solution peut être appropriée dans les cas suivants :
- Environnements hybrides qui requièrent la réplication des changements de données à partir d’un système mainframe ou midframe vers des bases de données Azure.
- Migration de base de données en ligne de Db2 vers une base de données Azure SQL avec peu de temps d’arrêt.
- Réplication de données à partir de différents magasins de données locaux vers Azure à des fins de consolidation et d’analyse.
Considérations
Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.
Fiabilité
La fiabilité permet de s’assurer que votre application tient vos engagements auprès de vos clients. Pour plus d’informations, consultez la page Vue d’ensemble du pilier de fiabilité.
- Une intégration de données Qlik peut être configurée dans un cluster à haute disponibilité.
- Les services de base de données Azure prennent en charge la redondance interzone. Vous pouvez les concevoir afin qu’ils basculent vers un nœud secondaire en cas d’interruption ou pendant une fenêtre de maintenance.
Sécurité
La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.
- ExpressRoute fournit une connexion privée et efficace à Azure à partir d’un emplacement local, mais vous pouvez utiliser un VPN site à site à la place.
- Des ressources Azure peuvent être authentifiées en tirant parti de Microsoft Entra ID. Les autorisations peuvent être gérées par un contrôle d’accès en fonction du rôle.
- Les services de base de données dans Azure prennent en charge différentes options de sécurité, telles que les suivantes :
- Chiffrement des données au repos.
- Masquage des données dynamiques.
- Base de données Always Encrypted.
- Pour obtenir des conseils d’ordre général sur la conception de solutions sécurisées, consultez la documentation sur la sécurité Azure.
Optimisation des coûts
L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.
Utilisez la Calculatrice de prix Azure pour estimer les coûts de votre implémentation.
Excellence opérationnelle
L’excellence opérationnelle couvre les processus d’exploitation qui déploient une application et maintiennent son fonctionnement en production. Pour plus d’informations, consultez Vue d’ensemble du pilier Excellence opérationnelle.
- Vous pouvez combiner les fonctionnalités Application Insights et Log Analytics d’Azure Monitor pour surveiller l’intégrité des ressources Azure. Vous pouvez définir des alertes afin de pouvoir gérer de manière proactive.
- Pour obtenir des conseils sur la résilience dans Azure, consultez Conception d’applications Azure fiables.
Efficacité des performances
L’efficacité des performances est la capacité de votre charge de travail à s’adapter à la demande des utilisateurs de façon efficace. Pour plus d’informations, consultez Vue d’ensemble du pilier d’efficacité des performances.
Databricks, Data Lake Storage et d’autres bases de données Azure intègrent des fonctionnalités de mise à l’échelle automatique. Pour plus d’informations, consultez Mise à l’échelle automatique.
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteur principal :
- Nithish Aruldoss | Architecte Ingénierie
- Ashish Khandelwal | Directeur principal de l’architecture d’ingénierie
Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.
Étapes suivantes
- Plateforme d’intégration de données Qlik
- Lancer de nouvelles initiatives d’analyse Azure (feuille de données PDF)
- Qu’est-ce qu’Azure ExpressRoute ?
- Qu’est-ce qu’une passerelle VPN ?
- Qu’est-ce que Microsoft Entra ID ?
- Azure Event Hubs - plateforme de streaming de Big Data et service d’ingestion d’événements
- Introduction à Azure Data Lake Storage Gen2
- Présentation des principaux services de stockage Azure
- Présentation d’Azure SQL Database
- Bienvenue dans Azure Cosmos DB
- Vue d’ensemble d’Azure Monitor
- Présentation d’Application Insights
- Vue d’ensemble de Journaux d’activité Azure Monitor
- Requêtes de journal dans Azure Monitor
- Contactez-nous (sélectionnez pour créer un e-mail)