Choisir une technologie de traitement par lots dans Azure
Les solutions Big Data se composent souvent de tâches de traitement par lots distinctes, qui contribuent à la solution globale de traitement des données. Vous pouvez utiliser le traitement par lots pour les charges de travail qui ne nécessitent pas d’accès immédiat aux aperçus. Le traitement par lots peut répondre aux exigences de traitement en temps réel. Cette méthode vous permet également d’équilibrer la complexité et de réduire les coûts de votre implémentation globale.
L’exigence fondamentale des moteurs de traitement par lots est la possibilité d’effectuer un scale-out des calculs pour gérer de gros volumes de données. Contrairement au traitement en temps réel, le traitement par lots comporte des latences (temps entre l’ingestion des données et le calcul du résultat) qui se mesurent en minutes, voire en heures.
Choisir une technologie pour le traitement par lots
Microsoft propose plusieurs services vous permettant d’effectuer le traitement par lots.
Microsoft Fabric
Microsoft Fabric est une plateforme d’analytique et de données tout-en-un destinée aux organisations. Il s’agit d’une offre de logiciel en tant que service qui simplifie l’approvisionnement, la gestion et la gouvernance d’une solution d’analytique de bout en bout. Fabric gère le déplacement, le traitement, l’ingestion, la transformation et le reporting des données. Parmi les fonctionnalités de traitement par lots proposées par Fabric, on retrouve les ingénieurs de données, les entrepôts de données, les lakehouses et le traitement Apache Spark. Azure Data Factory dans Fabric accepte également les lakehouses. Pour simplifier et accélérer le développement, vous pouvez activer Copilot, basé sur l’IA.
Langages : R, Python, Java, Scala et SQL
Sécurité : réseau virtuel géré et contrôle d’accès en fonction du rôle OneLake (RBAC)
Stockage principal : OneLake, qui propose des raccourcis et des options de mise en miroir
Spark : un pool de démarrage préhydraté et un pool Spark personnalisé avec des tailles de nœud prédéfinies
Azure Synapse Analytics
Azure Synapse Analytics est un service analytique d’entreprise qui réunit les technologies SQL et Spark dans un seul espace de travail. Azure Synapse Analytics simplifie la sécurité, la gouvernance et la gestion. Chaque espace de travail dispose de pipelines de données intégrés grâce auxquels vous pouvez créer des flux de travail de bout en bout. Vous pouvez également approvisionner un pool SQL dédié pour une analytique à grande échelle, un point de terminaison SQL sans serveur que vous pouvez utiliser pour interroger directement le lac et un runtime Spark pour le traitement des données distribuées.
Langages : Python, Java, Scala et SQL
Sécurité : réseau virtuel géré, RBAC et contrôle d’accès, listes de contrôle d’accès au stockage sur Azure Data Lake Storage
Stockage principal : Data Lake Storage, s’intègre également à d’autres sources
Spark : configuration Spark personnalisée avec des tailles de nœud prédéfinies
Azure Databricks
Azure Databricks est une plateforme d’analyse basée sur Spark. Il propose des fonctionnalités Spark enrichies et premium basées sur Spark open source. Azure Databricks est un service Microsoft qui s’intègre au reste des services Azure. Ce service propose des configurations supplémentaires pour les déploiements de cluster Spark. Par ailleurs, Unity Catalog permet de simplifier la gouvernance des objets Azure Databricks Spark.
Langages : R, Python, Java, Scala et Spark SQL.
Sécurité : authentification utilisateur avec Microsoft Entra ID.
Stockage principal : intégration au Stockage Blob Azure, à Azure Data Lake Storage (ADLS), à Azure Synapse et à d’autres services. Pour plus d’informations, consultez Sources de données.
Voici d’autres avantages :
Notebooks basés sur le web pour la collaboration et l’exploration de données.
Heures de début du cluster rapides, arrêt et mise à l’échelle automatiques.
Prend en charge les clusters compatibles GPU.
Critères de sélection principaux
Pour choisir votre technologie de traitement par lots, posez-vous les questions suivantes :
Avez-vous besoin d’un service géré, ou préférez-vous gérer vos propres serveurs ?
Souhaitez-vous créer la logique de traitement par lots de manière déclarative ou impérative ?
Effectuez-vous des traitements par lots en rafales ? Si c’est le cas, optez pour des solutions qui vous permettent de mettre fin automatiquement à un cluster ou qui proposent des modèles tarifaires pour chaque tâche de traitement par lots.
Avez-vous besoin d’interroger des magasins de données relationnels en parallèle de vos traitements par lots, par exemple, pour rechercher des données de référence ? Si c’est le cas, optez pour des solutions qui vous permettent d’interroger des magasins relationnels externes.
Matrice des fonctionnalités
Les tableaux suivants récapitulent les principales différences entre les fonctionnalités des différents services.
Fonctionnalités générales
Fonctionnalité | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Software as a Service | Oui1 | Non | Non |
Service géré | Non | Oui | Oui |
Magasin de données relationnel | Oui | Oui | Oui |
Modèle de tarification | Unités de capacité | Pool SQL ou heure du cluster | Unité Azure Databricks 2 et heure de cluster |
[1] Capacité Fabric affectée.
[2] Une unité Azure Databricks mesure la capacité de traitement par heure.
Autres fonctionnalités
Fonctionnalité | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Mise à l’échelle automatique | Non | Non | Oui |
Granularité de la montée en charge | Par SKU Fabric | Par cluster ou par pool SQL | Par cluster |
Mise en cache des données en mémoire | Non | Oui | Oui |
Interrogation à partir de magasins relationnels externes | Oui | No | Oui |
Authentification | Microsoft Entra ID | SQL ou Microsoft Entra ID | Microsoft Entra ID |
Audit | Oui | Oui | Oui |
Sécurité au niveau des lignes | Oui | Oui 1 | Oui |
Prend en charge les pare-feu | Oui | Oui | Oui |
Masquage dynamique des données | Oui | Oui | Oui |
[1] prédicats de filtre uniquement. Pour en savoir plus, consultez Sécurité au niveau des lignes.
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Principaux auteurs :
- Zoiner Tejada | CEO et Architecte
- Pratima Valavala | Architecte principal de solutions
Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.
Étapes suivantes
- Présentation de Fabric
- Guide de décision de Fabric
- Formation : Présentation d’Azure Synapse Analytics
- Présentation d’Azure HDInsight
- Présentation d’Azure Databricks