Cet article fournit une approche en termes d’architecture pour préparer les abonnements de la zone d’atterrissage Azure pour un déploiement évolutif et mieux sécurisé d’Azure Synapse Analytics. Azure Synapse, un service d’analytique d’entreprise, combine l’entreposage de données, le traitement Big Data, l’intégration des données et la gestion.
L’article suppose que vous avez déjà implémenté la base de la plateforme nécessaire à la construction et au fonctionnement efficaces d’une zone d’atterrissage.
Apache®, Spark et le logo représentant une flamme sont des marques déposées ou des marques commerciales d’Apache Software Foundation aux États-Unis et/ou dans d’autres pays. L’utilisation de ces marques n’implique aucune approbation de l’Apache Software Foundation.
Architecture
Téléchargez un fichier Visio de cette architecture.
Dataflow
- Le composant principal de cette architecture est Azure Synapse, un service unifié qui fournit une gamme de fonctions, allant de l’ingestion et du traitement des données à la réponse à des requêtes et à l’analytique. Azure Synapse dans un réseau virtuel managé fournit une isolation réseau pour l’espace de travail. En activant la protection contre l’exfiltration de données, vous pouvez limiter la connectivité sortante aux seules cibles approuvées.
- Les ressources Azure Synapse, le runtime d’intégration Azure et les pools Spark situés dans le réseau virtuel managé peuvent se connecter à Azure Data Lake Storage, à Azure Key Vault et à d’autres magasins de données Azure avec une sécurité renforcée en utilisant des points de terminaison privés managés. Les pools Azure Synapse SQL hébergés en dehors du réseau virtuel managé peuvent se connecter aux services Azure via un point de terminaison privé dans le réseau virtuel d’entreprise.
- Les administrateurs peuvent imposer une connectivité privée à l’espace de travail Azure Synapse, Data Lake Storage, Key Vault, Log Analytics et d’autres magasins de données via des stratégies Azure appliquées sur les zones d’atterrissage des données au niveau du groupe d’administration. Ils peuvent également activer la protection contre l’exfiltration de données afin de fournir une sécurité renforcée pour le trafic de sortie.
- Les utilisateurs accèdent à Synapse Studio en utilisant un navigateur web depuis un réseau local restreint via des hubs Azure Synapse Private Link. Les hubs Private Link sont utilisés pour charger Synapse Studio via des liaisons privées avec une sécurité renforcée. Une ressource Hubs Azure Synapse Private Link unique est déployée dans un abonnement de connectivité avec un point de terminaison privé dans le réseau virtuel du hub. Le réseau virtuel du hub est connecté au réseau local via Azure ExpressRoute. La ressource Hubs Private Link peut être utilisée pour se connecter de façon privée à tous les espaces de travail Azure Synapse via Synapse Studio.
- Les ingénieurs Données utilisent l’activité Copy des pipelines Azure Synapse, exécutés dans un runtime d’intégration auto-hébergé, pour ingérer des données entre un magasin de données hébergé dans un environnement local et des magasins de données cloud, comme Data Lake Storage et des pools SQL. L’environnement local est connecté via ExpressRoute au réseau virtuel du hub sur Azure.
- Les ingénieurs Données utilisent l’activité Data Flow d’Azure Synapse et des pools Spark pour transformer les données hébergées sur des magasins de données cloud connectés au réseau virtuel managé d’Azure Synapse via des points de terminaison privés managés. Pour les données situées dans l’environnement local, la transformation avec des pools Spark nécessite une connectivité via le service Private Link personnalisé. Le service Private Link personnalisé utilise des machines virtuelles NAT (Network Address Translation) pour se connecter au magasin de données local. Pour plus d’informations sur la configuration du service Private Link service pour accéder à des magasins de données locaux à partir d’un réseau virtuel managé, consultez Comment accéder à SQL Server local depuis un réseau virtuel managé Data Factory en utilisant un point de terminaison privé.
- Si la protection contre l’exfiltration de données est activée dans Azure Synapse, la connexion de l’application Spark à l’espace de travail Log Analytics est routée via une ressource d’étendue de liaison privée Azure Monitor connectée au réseau virtuel managé Azure Synapse via un point de terminaison privé managé. Comme le montre le diagramme, une ressource d’étendue de liaison privée Azure Monitor est hébergée dans un abonnement de connectivité avec un point de terminaison privé dans le réseau virtuel du hub. Tous les espaces de travail Log Analytics et les ressources Application Insights sont accessibles de façon privée via l’étendue de liaisons Azure Monitor.
Composants
- Azure Synapse Analytics est un service d’analyse pour entreprise qui raccourcit le délai d’obtention d’analyses sur l’ensemble des entrepôts de données et des systèmes Big Data.
- Le réseau virtuel managé Azure Synapse fournit une isolation réseau aux espaces de travail Azure Synapse par rapport aux autres espaces de travail.
- Les points de terminaison privés managés Azure Synapse sont des points de terminaison privés créés dans un réseau virtuel managé qui est associé à votre espace de travail Azure Synapse. Les points de terminaison privés managés établissent une connectivité de liaison privée aux ressources Azure en dehors du réseau virtuel managé.
- Un espace de travail Azure Synapse avec la protection contre l’exfiltration de données empêche l’exfiltration des données sensibles vers des emplacements qui sont en dehors de l’étendue d’une organisation.
- Les hubs Azure Private Link sont des ressources Azure qui agissent en tant que connecteurs entre votre réseau sécurisé et l’expérience web de Synapse Studio.
- Le runtime d’intégration est l’infrastructure de calcul utilisée par les pipelines Azure Synapse pour fournir des fonctionnalités d’intégration de données entre différents environnements réseau. Exécutez l’activité Data Flow dans le runtime d’intégration de calcul Azure managé ou l’activité Copy sur des réseaux en utilisant un runtime d’intégration de calcul auto-hébergé.
- Azure Private Link fournit un accès privé à des services hébergés sur Azure. Le service Azure Private Link est la référence à votre propre service basé sur Private Link. Vous pouvez activer votre service qui s’exécute derrière l’équilibreur de charge Standard Azure pour l’accès de Private Link. Vous pouvez ensuite étendre le service Private Link au réseau virtuel managé Azure Synapse via un point de terminaison privé managé.
- Apache Spark dans Azure Synapse est une des implémentations par Microsoft d’Apache Spark dans le cloud. Azure Synapse vous permet de créer et de configurer facilement des fonctionnalités Spark sur Azure.
- Data Lake Storage utilise Stockage Azure comme base pour créer des lacs de données d’entreprise sur Azure.
- Key Vault vous permet de stocker des secrets, des clés et des certificats avec une sécurité renforcée.
- Les zones d’atterrissage Azure sont les résultats en sortie d’un environnement Azure multi-abonnement qui prennent en compte la mise à l’échelle, la gouvernance de la sécurité, le réseau et l’identité. Une zone d’atterrissage permet la migration, la modernisation et l’innovation à l’échelle de l’entreprise sur Azure.
Détails du scénario
Cet article fournit une approche de la préparation des abonnements de la zone d’atterrissage Azure pour un déploiement évolutif et mieux sécurisé d’Azure Synapse. La solution respecte les bonnes pratiques du Cloud Adoption Framework pour Azure et se concentre sur les directives de conception pour les zones d’atterrissage à l’échelle de l’entreprise.
De nombreuses grandes organisations avec des départements autonomes et décentralisés veulent adopter des solutions d’analytique et de science des données à grande échelle. Il est essentiel pour elles de construire les bonnes bases. Azure Synapse et Data Lake Storage sont les composants centraux de l’implémentation de l’analytique à l’échelle du cloud et d’une architecture de maillage des données.
Cet article fournit des recommandations pour le déploiement d’Azure Synapse sur des groupes d’administration, la topologie des abonnements, le réseau, l’identité et la sécurité.
En utilisant cette solution, vous pouvez obtenir :
- Une plateforme d’analytique bien gouvernée et avec une sécurité renforcée, qui s’adapte à vos besoins dans plusieurs zones d’atterrissage des données.
- Réduction de la surcharge opérationnelle pour les équipes d’application de données. Ils peuvent se concentrer sur l’ingénierie et l’analytique des données, et laisser la gestion de la plateforme Azure Synapse à l’équipe des opérations de zone d’atterrissage des données.
- Centralisation de la mise en œuvre de la conformité organisationnelle entre les zones d’atterrissage des données.
Cas d’usage potentiels
Cette architecture est utile pour les organisations qui nécessitent :
- Un plan de données et de contrôle opérationnel entièrement intégré pour les charges de travail Azure Synapse, dès le début.
- Une implémentation de la sécurité renforcée d’Azure Synapse, l’accent étant mis sur la sécurité et la confidentialité des données.
Cette architecture peut servir de point de départ pour les déploiements à grande échelle de charges de travail Azure Synapse sur les abonnements de la zone d’atterrissage des données.
La topologie de l’abonnement
Les organisations qui créent des plateformes de données et d’analytique à grande échelle recherchent des moyens de mettre à l’échelle leurs travaux de façon cohérente et efficace au fil du temps.
- En utilisant des abonnements comme unité d’échelle pour les zones d’atterrissage des données, les organisations peuvent surmonter les limitations au niveau de l’abonnement, garantir une isolation et une gestion des accès appropriées, et obtenir une croissance future flexible pour l’empreinte de la plateforme de données. Dans une zone d’atterrissage des données, vous pouvez regrouper des ressources Azure Synapse et d’autres ressources de données pour des cas d’usage d’analytique spécifiques au sein d’un groupe de ressources.
- La configuration du groupe d’administration et de l’abonnement sont de la responsabilité du propriétaire de la plateforme de zone d’atterrissage qui fournit l’accès nécessaire aux administrateurs de la plateforme de données pour provisionner Azure Synapse et d’autres services.
- Toutes les stratégies de conformité des données à l’échelle de l’organisation sont appliquées au niveau du groupe d’administration pour imposer la conformité dans les zones d’atterrissage des données.
Topologie de mise en réseau
Pour obtenir des recommandations sur les zones d’atterrissage qui utilisent la topologie de réseau WAN virtuel (hub-and-spoke), consultez Topologie de réseau WAN virtuel. Ces recommandations sont alignées sur les bonnes pratique du Cloud Adoption Framework.
Voici quelques recommandations pour la topologie réseau d’Azure Synapse :
Implémentez l’isolation réseau pour les ressources Azure Synapse via le réseau virtuel managé. Implémentez la protection contre l’exfiltration de données en limitant l’accès sortant seulement aux cibles approuvées.
Configurez une connectivité privée aux éléments suivants :
- Les services Azure, comme Data Lake Storage, Key Vault et Azure SQL, via des points de terminaison privés managés.
- Les magasins de données locaux et les applications sur ExpressRoute, via un runtime d’intégration auto-hébergé. Utilisez un service Private Link personnalisé pour connecter des ressources Spark à des magasins de données locaux si vous ne pouvez pas utiliser un runtime d’intégration auto-hébergé.
- Synapse Studio, via des hubs de liaison privée déployés dans un abonnement de connectivité.
- L’espace de travail Log Analytics, via l’étendue de liaison privée Azure Monitor, déployée dans un abonnement de connectivité.
Gestion de l’identité et de l’accès
Les entreprises utilisent généralement une approche du moindre privilège pour l’accès opérationnel. Elle utilise Azure Microsoft Entra ID, le contrôle d’accès en fonction du rôle (RBAC) Azure et des définitions de rôles personnalisées pour la gestion des accès.
- Implémentez des contrôles d’accès précis dans Azure Synapse en utilisant des rôles Azure, des rôles Azure Synapse, des rôles SQL et des autorisations Git. Pour plus d’informations sur le contrôle d’accès à l’espace de travail Azure Synapse, consultez cette vue d’ensemble.
- Les rôles Azure Synapse fournissent des ensembles d’autorisations que vous pouvez appliquer à différentes étendues. Grâce à cette granularité, il est facile d’accorder aux administrateurs, développeurs, opérateurs et personnel de sécurité un accès approprié aux données et ressources de calcul.
- Vous pouvez simplifier le contrôle d’accès en utilisant des groupes de sécurité qui sont alignés avec les rôles des fonctions. Pour gérer les accès, vous devez seulement ajouter ou supprimer des utilisateurs dans les groupes de sécurité appropriés.
- Vous pouvez assurer la sécurité de la communication entre Azure Synapse et d’autres services Azure, comme Data Lake Storage et Key Vault, en utilisant des identités managées affectées par l’utilisateur. Ceci élimine la nécessité de gérer les informations d’identification. Les identités managées fournissent une identité utilisée par les applications quand elles se connectent à des ressources qui prennent en charge l’authentification Microsoft Entra.
Automatisation des applications et DevOps
- L’intégration et la livraison continues pour un espace de travail Azure Synapse sont obtenues via l’intégration et la promotion Git de toutes les entités d’un environnement (développement, test, production) vers un autre environnement.
- Implémentez l’automatisation avec des modèles Bicep/Azure Resource Manager pour créer ou mettre à jour des ressources d’espace de travail (pools et espace de travail). Migrez des artefacts comme des scripts et des notebooks SQL, des définitions de travaux Spark, des pipelines, des jeux de données et d’autres artefacts en utilisant des outils de déploiement d’espace de travail Synapse dans Azure DevOps ou sur GitHub, comme décrit dans Intégration et livraison continues pour un espace de travail Azure Synapse Analytics.
Considérations
Ces considérations implémentent les piliers d’Azure Well-Architected Framework, un ensemble de principes directeurs que vous pouvez utiliser pour améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.
Fiabilité
La fiabilité permet de s’assurer que votre application tient vos engagements auprès de vos clients. Pour plus d’informations, consultez la page Vue d’ensemble du pilier de fiabilité.
- Azure Synapse, Data Lake Storage et Key Vault sont des services PaaS (Platform as a Service) managés avec une haute disponibilité et une haute résilience intégrées. Vous pouvez utiliser des nœuds redondants pour assurer la haute disponibilité du runtime d’intégration auto-hébergé et des machines virtuelles NAT de l’architecture.
- Pour obtenir des informations sur les contrats de niveau de service (SLA), consultez SLA pour Azure Synapse Analytics.
- Pour obtenir des recommandations sur la continuité d’activité et la reprise d’activité pour Azure Synapse, consultez Points de restauration de base de données pour Azure Synapse Analytics.
Sécurité
La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.
- Cette base de référence de la sécurité applique les directives d’Azure Security Benchmark 2.0 au pool SQL dédié à Azure Synapse.
- Pour plus d’informations sur les contrôles de sécurité d’Azure Policy pour Azure Synapse, consultez Contrôles de conformité réglementaire d’Azure Policy pour Azure Synapse Analytics.
- Pour connaître les stratégies intégrées importantes pour un espace de travail Azure Synapse, consultez Définitions intégrées d’Azure Policy pour Azure Synapse Analytics.
Optimisation des coûts
L’optimisation des coûts consiste à réduire les dépenses inutiles et à améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.
- Les ressources analytiques sont mesurées en unités appelées Data Warehouse Units (DWU), qui effectuent le suivi du processeur, de la mémoire et des E-S. Nous vous recommandons de commencer avec un petit nombre d’unités DWU et de mesurer les performances pour les opérations gourmandes en ressources, comme le chargement ou la transformation de grandes quantités de données. Ceci peut vous aider à déterminer le nombre d’unités dont vous avez besoin pour optimiser votre charge de travail.
- Économisez de l’argent avec des prix pour le paiement à l’utilisation en utilisant des unités de commit Azure Synapse (SCU) pré-achetées.
- Pour explorer les options de tarification et estimer le coût de l’implémentation d’Azure Synapse, consultez Tarification d’Azure Synapse Analytics.
- Cette estimation tarifaire comprend les coûts de déploiement des services en utilisant les étapes d’automatisation décrites dans la section suivante.
Déployer ce scénario
Prérequis : vous devez avoir un compte Azure. Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.
Tout le code de ce scénario est disponible dans le référentiel Synapse Enterprise Codebase sur GitHub.
Le déploiement automatisé utilise des modèles Bicep pour déployer les composants suivants :
- Un groupe de ressources
- Un réseau et des sous-réseaux virtuels
- Des niveaux de stockage (Bronze, Silver et Gold) avec des points de terminaison privés
- Un espace de travail Azure Synapse avec un réseau virtuel managé
- Le service et des points de terminaison Private Link
- Une équilibreur de charge et des machines virtuelles NAT
- Une ressource de runtime d’intégration auto-hébergé
Un script PowerShell pour orchestrer le déploiement est disponible dans le dépôt. Vous pouvez exécuter le script PowerShell ou utiliser le fichier pipeline.yml pour le déployer en tant que pipeline dans Azure DevOps.
Pour plus d’informations sur les modèles Bicep, les étapes de déploiement et les hypothèses, consultez le fichier readme.
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteurs principaux :
- Vidya Narasimhan | Architecte de solutions cloud principal
- Sabyasachi Samaddar | Architecte de solution cloud senior
Autre contributeur :
- Mick Alberts | Rédacteur technique
Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.
Étapes suivantes
- Pour plus d’informations sur la création d’une plateforme de données et d’analytique de bout en bout, consultez les conseils pour l’analytique à l’échelle du cloud.
- Explorez le maillage de données comme modèle d’architecture permettant d’implémenter des plateformes de données d’entreprise dans de grandes organisations complexes.
- Consultez le Livre blanc sur la sécurité d’Azure Synapse.
Pour plus d’informations sur les services décrits dans cet article, consultez ces ressources :