Microsoft est fier de prendre en charge des projets, des initiatives et des fondations open source et de contribuer à des milliers de communautés open source. En utilisant des technologies open source sur Azure, vous pouvez exécuter les applications à votre manière tout en optimisant vos investissements.
Cet article récapitule les architectures et les solutions qui utilisent Azure avec les solutions open source Apache.
Apache®, Apache Cassandra, Apache CouchDB, Apache Hadoop, Apache HBase, Apache Hive, Apache Ignite, Apache JMeter, Apache Kafka, Apache MapReduce, Apache Oozie, Apache Solr, Apache Spark, Apache Sqoop, Apache ZooKeeper et le logo de flamme sont des marques déposées ou des marques déposées de Apache Software Foundation aux États-Unis et/ou dans d’autres pays. L’utilisation de ces marques n’implique aucune approbation de l’Apache Software Foundation.
Consulter des recommandations concernant le fractionnement de partitions de données pour une gestion et un accès distincts. Comprendre les stratégies de partitionnement horizontal, vertical et fonctionnel. Cassandra convient parfaitement au partitionnement vertical.
Découvrez les bases de données non relationnelles qui stockent les données sous forme de paires clé-valeur, de graphiques, de séries chronologiques, d’objets et d’autres modèles de stockage adaptés aux besoins spécifiques en matière de données. Azure Cosmos DB for Apache Cassandra est un service Azure recommandé.
Examinez les considérations relatives aux performances pour l’exécution d’Apache Cassandra sur des machines virtuelles Azure. Utilisez ces recommandations comme base de référence pour effectuer des tests sur votre charge de travail.
Utilisez les pratiques éprouvées de cette architecture de référence pour améliorer la redondance, la scalabilité et le niveau de performance d’une application web Azure App Service. CouchDB est une base de données de documents recommandée.
Découvrez des architectures Big Data capables de gérer l’ingestion, le traitement et l’analyse de données trop volumineuses ou complexes pour les systèmes de base de données traditionnels. Les clusters Azure HDInsight Hadoop peuvent être utilisés pour le traitement par lots.
Découvrez les options de transfert de données Azure comme Azure Import/Export, Azure Data Box, Azure Data Factory, et les outils de ligne de commande et d’interface graphique. L’écosystème Hadoop fournit des outils pour le transfert de données.
Découvrez comment utiliser Azure Machine Learning et Power Platform pour créer rapidement une preuve de concept de Machine Learning et une version de production. Azure Data Lake, un système de fichiers compatible Hadoop, stocke les données.
En savoir plus sur la gestion des données dans une architecture de microservices. Voir un exemple de l’utilisation d’Azure Data Lake Store, un système de fichiers Hadoop.
Découvrez les pipelines de transformation de données ETL (extract-transform-load) et ELT (extract-load-transform), et apprenez à utiliser les flux de contrôle et les flux de données. Hadoop peut être utilisé comme banque de données de destination dans les processus ELT.
Générez des vues préremplies sur les données d’un ou de plusieurs magasins de données lorsque les données ne sont pas adéquatement formatées pour les opérations de requête requises. Utiliser Hadoop comme mécanisme de stockage Big Data prenant en charge l’indexation.
Découvrez des architectures Big Data capables de gérer l’ingestion, le traitement et l’analyse de données trop volumineuses ou complexes pour les systèmes de base de données traditionnels. Vous pouvez utiliser HBase pour la présentation des données dans ces scénarios.
Découvrez comment utiliser HBase pour un accès aléatoire et une forte cohérence sur de grandes quantités de données non structurées et semi-structurées.
Consultez les conseils pour séparer les partitions de données afin qu’elles puissent être gérées et accessibles séparément. Comprendre les stratégies de partitionnement horizontal, vertical et fonctionnel. HBase convient parfaitement au partitionnement vertical.
Découvrez les bases de données non relationnelles qui stockent les données sous forme de paires clé-valeur, de graphiques, de séries chronologiques, d’objets et d’autres modèles de stockage adaptés aux besoins spécifiques en matière de données. HBase peut être utilisé pour les données de séries chronologiques et en colonne.
Découvrez des architectures Big Data capables de gérer l’ingestion, le traitement et l’analyse de données trop volumineuses ou complexes pour les systèmes de base de données traditionnels. Dans ces scénarios, vous pouvez utiliser Hive pour le traitement par lots et la présentation des données.
Découvrez les pipelines de transformation de données ETL et ELT, et apprenez à utiliser les flux de contrôle et les flux de données. Dans ELT, vous pouvez utiliser Hive pour interroger les données sources. Vous pouvez également l’utiliser conjointement avec Hadoop en tant que magasin de données.
Utiliser Azure HDInsight et le machine learning pour prédire la probabilité que des prêts soient annulés. Les résultats de l’analyse sont stockés dans des tables Hive.
Utilisez des applications simulées et réelles, ainsi que des charges de travail existantes, pour superviser la réaction de l’infrastructure d’une solution en termes de scalabilité et de performances. Une solution JMeter personnalisée est utilisée pour le test de charge.
En savoir plus sur les modèles et les implémentations utilisés pour transformer un système bancaire pour le Cloud. JMeter est utilisé pour le test de charge.
Créez des applications cloud évolutives à l’aide d’une modélisation des performances et d’autres principes et pratiques d’ingénierie de fiabilité du site (SRE). JMeter est utilisé pour le test de charge.
Découvrez une approche de bout en bout pour un fabricant d’équipement d’origine (OEM). Comprend plusieurs bibliothèques open source que vous pouvez réutiliser. Les services back-end dans cette architecture peuvent se connecter à Kafka.
Utilisez des applications simulées et réelles, ainsi que des charges de travail existantes, pour superviser la réaction de l’infrastructure d’une solution en termes de scalabilité et de performances. Les événements de Event Hubs pour Kafka s'intègrent dans le système.
Examinez le modèle de réclamation-vérification, qui divise un message volumineux en une vérification des revendications et une charge utile pour éviter de surcharger un bus de messages. Découvrez un exemple qui utilise Kafka pour générer la vérification des revendications.
Utilisez AKS pour ingérer et traiter facilement un flux de données en temps réel avec des millions de points de données collectés via des capteurs. Kafka stocke les données à des fins d’analyse.
Créez des pipelines ETL pour les données Batch et les données de streaming avec Azure Databricks afin de simplifier l’ingestion des lacs de données, quelle que soit l’échelle. Kafka est une option permettant d’ingérer des données.
Découvrez comment créer, développer et déployer un code efficace et évolutif qui s’exécute sur Azure Functions et réagit aux événements Azure Event Hubs. Découvrez comment les événements peuvent être persistants dans les rubriques Kafka.
Utilisez Azure Data Explorer pour l’analytique de la télémétrie IoT en quasi-temps réel sur des données diffusées en continu rapidement, à un volume élevé, à partir de plusieurs appareils IoT, dont Kafka.
Utiliser Qlik Replicate pour migrer des systèmes mainframe et milieu de gamme vers le cloud, ou pour étendre ces systèmes avec des applications cloud. Dans cette solution, Kafka stocke les informations du journal des changements utilisées pour répliquer les entrepôts de données.
En savoir plus sur les modèles et les implémentations utilisés pour transformer un système bancaire pour le Cloud. Un outil de mise à l’échelle Kafka est utilisé pour détecter si la solution doit activer ou désactiver le déploiement de l’application.
En savoir plus sur le modèle éditeur-abonné, qui permet à une application d’annoncer des événements à de nombreux consommateurs intéressés de manière asynchrone. Kafka est recommandé pour la messagerie.
Utiliser un modèle de limitation de débit pour éviter ou réduire les erreurs de limitation de bande passante. Ce modèle peut implémenter Kafka pour la messagerie.
Découvrez comment utiliser la solution de refactorisation automatisée et avancée COBOL d’Advanced afin de moderniser vos applications COBOL mainframe, de les exécuter sur Azure et de réduire les coûts. Kafka peut être utilisé comme une source de données.
En savoir plus sur les options de messagerie asynchrone dans Azure. Vous pouvez utiliser MapReduce pour générer des rapports sur les événements capturés par Event Hubs.
Découvrez des architectures Big Data capables de gérer l’ingestion, le traitement et l’analyse de données trop volumineuses ou complexes pour les systèmes de base de données traditionnels. Vous pouvez utiliser MapReduce pour le traitement par lots ainsi que pour fournir des fonctionnalités pour les opérations parallèles dans ces scénarios.
Déployez des services back-end dans un ensemble de nœuds géographiques, chacun pouvant traiter une requête client dans n’importe quelle région. Ce modèle est rencontré dans les architectures Big Data qui utilisent MapReduce pour consolider les résultats sur plusieurs machines.
Suivez ces recommandations pour améliorer la scalabilité en limitant la coordination entre les services d’application. Utiliser MapReduce pour fractionner le travail en tâches indépendantes.
Découvrez des architectures Big Data capables de gérer l’ingestion, le traitement et l’analyse de données trop volumineuses ou complexes pour les systèmes de base de données traditionnels. Dans ces scénarios, vous pouvez utiliser Oozie pour l’orchestration.
Découvrez les capacités des magasins de données de recherche dans Azure et les principaux critères pour choisir celui qui correspond le mieux à vos besoins. En savoir plus sur les principales fonctionnalités de HDInsight avec Solr.
Apprenez à utiliser Azure Data Services pour créer une plateforme d’analyse moderne, capable de relever les défis les plus courants en matière de données. Le moteur d’analyse des pools Spark est disponible dans les espaces de travail Azure Synapse.
Découvrez des architectures Big Data capables de gérer l’ingestion, le traitement et l’analyse de données trop volumineuses ou complexes pour les systèmes de base de données traditionnels. Vous pouvez utiliser Spark pour le traitement par lots ou de flux et en tant que magasin de données analytiques.
Évaluer les différents magasins de données analytiques pour le Big Data dans Azure. En savoir plus sur les fonctionnalités des pools Spark dans Azure Synapse.
Découvrez les pipelines de transformation de données ETL (extract-transform-load) et ELT (extract-load-transform), et apprenez à utiliser les flux de contrôle et les flux de données. Avec l’approche ELT, vous pouvez utiliser Spark pour interroger les données sources. Vous pouvez également l’utiliser conjointement avec Hadoop en tant que magasin de données.
Comparez les options de création, de déploiement et de gestion de vos modèles d’apprentissage automatique, y compris la plateforme d’analyse basée sur Azure Databricks Spark et SynapseML.
Utiliser Azure Synapse, Azure SQL Database et Azure Data Lake Storage pour moderniser les données locales et héritées des PME. Les outils de l’espace de travail Azure Synapse peuvent utiliser les fonctionnalités de calcul Spark pour traiter les données.
Choisissez un service de traitement en langage naturel pour l’analyse des sentiments, la détection de rubriques, la détection de la langue, l’extraction de phrases clés et la classification de documents. En savoir plus sur les principales fonctionnalités d’Azure HDInsight avec Spark.
Découvrez comment utiliser des métriques et des modèles d’observabilité pour améliorer les performances de traitement d’un système Big Data à l’aide d’Azure Databricks. La bibliothèque d’analyse Azure Databricks diffuse en continu les événements Spark et les métriques Spark Structured Streaming des tâches.
Découvrez des architectures Big Data capables de gérer l’ingestion, le traitement et l’analyse de données trop volumineuses ou complexes pour les systèmes de base de données traditionnels. Dans ces scénarios, vous pouvez utiliser Sqoop pour automatiser les workflows d’orchestration.
Utiliser un modèle de limitation de débit pour éviter ou réduire les erreurs de limitation de bande passante. Dans ce scénario, vous pouvez utiliser ZooKeeper pour créer un système qui accorde des baux temporaires à la capacité.