Partager via


Choisir une technologie de traitement par lots dans Azure

Les solutions Big Data se composent souvent de tâches de traitement par lots distinctes, qui contribuent à la solution globale de traitement des données. Vous pouvez utiliser le traitement par lots pour les charges de travail qui ne nécessitent pas d’accès immédiat aux aperçus. Le traitement par lots peut répondre aux exigences de traitement en temps réel. Cette méthode vous permet également d’équilibrer la complexité et de réduire les coûts de votre implémentation globale.

L’exigence fondamentale des moteurs de traitement par lots est la possibilité d’effectuer un scale-out des calculs pour gérer de gros volumes de données. Contrairement au traitement en temps réel, le traitement par lots comporte des latences (temps entre l’ingestion des données et le calcul du résultat) qui se mesurent en minutes, voire en heures.

Choisir une technologie pour le traitement par lots

Microsoft propose plusieurs services vous permettant d’effectuer le traitement par lots.

Microsoft Fabric

Microsoft Fabric est une plateforme d’analytique et de données tout-en-un destinée aux organisations. Il s’agit d’une offre de logiciel en tant que service qui simplifie l’approvisionnement, la gestion et la gouvernance d’une solution d’analytique de bout en bout. Fabric gère le déplacement, le traitement, l’ingestion, la transformation et le reporting des données. Parmi les fonctionnalités de traitement par lots proposées par Fabric, on retrouve les ingénieurs de données, les entrepôts de données, les lakehouses et le traitement Apache Spark. Azure Data Factory dans Fabric accepte également les lakehouses. Pour simplifier et accélérer le développement, vous pouvez activer Copilot, basé sur l’IA.

  • Langages : R, Python, Java, Scala et SQL

  • Sécurité : réseau virtuel géré et contrôle d’accès en fonction du rôle OneLake (RBAC)

  • Stockage principal : OneLake, qui propose des raccourcis et des options de mise en miroir

  • Spark : un pool de démarrage préhydraté et un pool Spark personnalisé avec des tailles de nœud prédéfinies

Azure Synapse Analytics

Azure Synapse Analytics est un service analytique d’entreprise qui réunit les technologies SQL et Spark dans un seul espace de travail. Azure Synapse Analytics simplifie la sécurité, la gouvernance et la gestion. Chaque espace de travail dispose de pipelines de données intégrés grâce auxquels vous pouvez créer des flux de travail de bout en bout. Vous pouvez également approvisionner un pool SQL dédié pour une analytique à grande échelle, un point de terminaison SQL sans serveur que vous pouvez utiliser pour interroger directement le lac et un runtime Spark pour le traitement des données distribuées.

  • Langages : Python, Java, Scala et SQL

  • Sécurité : réseau virtuel géré, RBAC et contrôle d’accès, listes de contrôle d’accès au stockage sur Azure Data Lake Storage

  • Stockage principal : Data Lake Storage, s’intègre également à d’autres sources

  • Spark : configuration Spark personnalisée avec des tailles de nœud prédéfinies

Azure Databricks

Azure Databricks est une plateforme d’analyse basée sur Spark. Il propose des fonctionnalités Spark enrichies et premium basées sur Spark open source. Azure Databricks est un service Microsoft qui s’intègre au reste des services Azure. Ce service propose des configurations supplémentaires pour les déploiements de cluster Spark. Par ailleurs, Unity Catalog permet de simplifier la gouvernance des objets Azure Databricks Spark.

  • Langages : R, Python, Java, Scala et Spark SQL.

  • Sécurité : authentification utilisateur avec Microsoft Entra ID.

  • Stockage principal : intégration au Stockage Blob Azure, à Azure Data Lake Storage (ADLS), à Azure Synapse et à d’autres services. Pour plus d’informations, consultez Sources de données.

Voici d’autres avantages :

  • Notebooks basés sur le web pour la collaboration et l’exploration de données.

  • Heures de début du cluster rapides, arrêt et mise à l’échelle automatiques.

  • Prend en charge les clusters compatibles GPU.

Critères de sélection principaux

Pour choisir votre technologie de traitement par lots, posez-vous les questions suivantes :

  • Avez-vous besoin d’un service géré, ou préférez-vous gérer vos propres serveurs ?

  • Souhaitez-vous créer la logique de traitement par lots de manière déclarative ou impérative ?

  • Effectuez-vous des traitements par lots en rafales ? Si c’est le cas, optez pour des solutions qui vous permettent de mettre fin automatiquement à un cluster ou qui proposent des modèles tarifaires pour chaque tâche de traitement par lots.

  • Avez-vous besoin d’interroger des magasins de données relationnels en parallèle de vos traitements par lots, par exemple, pour rechercher des données de référence ? Si c’est le cas, optez pour des solutions qui vous permettent d’interroger des magasins relationnels externes.

Matrice des fonctionnalités

Les tableaux suivants récapitulent les principales différences entre les fonctionnalités des différents services.

Fonctionnalités générales

Fonctionnalité Fabric Azure Synapse Analytics Azure Databricks
Software as a Service Oui1 Non Non
Service géré Non Oui Oui
Magasin de données relationnel Oui Oui Oui
Modèle de tarification Unités de capacité Pool SQL ou heure du cluster Unité Azure Databricks 2 et heure de cluster

[1] Capacité Fabric affectée.

[2] Une unité Azure Databricks mesure la capacité de traitement par heure.

Autres fonctionnalités

Fonctionnalité Fabric Azure Synapse Analytics Azure Databricks
Mise à l’échelle automatique Non Non Oui
Granularité de la montée en charge Par SKU Fabric Par cluster ou par pool SQL Par cluster
Mise en cache des données en mémoire Non Oui Oui
Interrogation à partir de magasins relationnels externes Oui No Oui
Authentification Microsoft Entra ID SQL ou Microsoft Entra ID Microsoft Entra ID
Audit Oui Oui Oui
Sécurité au niveau des lignes Oui Oui 1 Oui
Prend en charge les pare-feu Oui Oui Oui
Masquage dynamique des données Oui Oui Oui

[1] prédicats de filtre uniquement. Pour en savoir plus, consultez Sécurité au niveau des lignes.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Principaux auteurs :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes