Questions fréquentes (FAQ) sur l’analyse à l’échelle du cloud
Vous trouverez ci-dessous les questions fréquentes sur l’analyse à l’échelle du cloud.
Comptes de stockage
Pourquoi faut-il trois comptes de stockage distincts ? N’est-il pas possible d’en avoir un seul avec trois conteneurs, un pour chaque couche (brute, affinée et organisée) ?
La plupart des modèles d’analytique données actuels comportent les trois couches : brute, affinée et organisée. Bien qu’elles puissent être conservées dans le même stockage, cela crée des problèmes pour des implémentations à grande échelle. En effet, le nombre d’autorisations de type contrôle d’accès en fonction du rôle (RBAC, Role-Based Access Control) et liste de contrôle d’accès (ACL, Access Control List) disponibles dans un même compte de stockage est dépassé. Si vous utilisez des comptes de stockage distincts, la plupart des implémentations permettent d’éviter ce problème.
Les autres raisons sont présentées dans la Vue d’ensemble d’Azure Data Lake Storage pour l’analyse à l’échelle du cloud.
Databricks
Faut-il déployer un espace de travail Azure Databricks par produit ?
Il est recommandé d’utiliser le produit partagé Espace de travail Analytique et science des données Azure Databricks à l’intérieur de la zone d’atterrissage.
Cette décision a été prise dans le but de réduire la charge de gestion pour l’équipe chargée de l’exploitation de la plateforme de données. Azure Databricks comporte un ensemble de stratégies autonomes qui ne sont pas intégrées dans les stratégies Azure. Dans un environnement de grande taille, plus le nombre d’espaces de travail Azure Databricks est élevé, plus la charge de gestion augmente (par exemple la gestion des stratégies et des versions prises en charge d’Apache Hive, la mise à jour des versions d’ADB et l’application du metastore Apache Hive externe). Il n’existe aucun moyen pour l’équipe chargée de la plateforme centrale d’appliquer certains paramètres dans les espaces de travail Databricks. Nous vous recommandons de prévoir des espaces de travail partagés pour les équipes de produits dans les zones d’atterrissage. Les équipes chargées de l’exploitation de la plateforme de données peuvent alors définir les stratégies de cluster et les scripts d’initialisation nécessaires.
Nous vous recommandons de recourir au peering de réseaux virtuels entre les zones d’atterrissage et les points de terminaison privés. Pour Azure Databricks, utilisez l’injection de réseau virtuel. La présence d’une ligne de vue directe sur tous les points de terminaison permet d’éviter tout problème de connectivité.
Étapes suivantes
Processus d’ingestion avec une analyse à l’échelle du cloud dans Azure