Azure Databricks et sécurité
Azure Databricks est une plateforme d’analytique données optimisée pour les services cloud Azure. Il offre trois environnements pour développer des applications gourmandes en données :
Pour en savoir plus sur la façon dont Azure Databricks améliore la sécurité d’analyse du Big Data, consultez Concepts d’Azure Databricks.
Les sections suivantes incluent des considérations relatives à la conception, une liste de vérification de configuration et des options de configuration recommandées spécifiques d’Azure Databricks.
Considérations sur la conception
Par défaut, les notebooks et résultats de notebook de tous les utilisateurs sont chiffrés au repos. Si d’autres exigences sont en place, envisagez d’utiliser des clés gérées par le client pour les notebooks.
Liste de contrôle
Avez-vous configuré Azure Databricks en ayant la sécurité à l’esprit ?
- Utilisez le passthrough des informations d’identification de l’ID Microsoft Entra pour éviter le besoin de principaux de service lors de la communication avec Azure Data Lake Stockage.
- Isolez vos espaces de travail, calculs et données de l’accès public. Assurez-vous que seules les bonnes personnes ont accès et uniquement via des canaux sécurisés.
- Assurez-vous que les espaces de travail cloud pour votre analyse ne sont accessibles qu’à des utilisateurs correctement managés.
- Implémentez Azure Private Link.
- Limitez et surveillez vos machines virtuelles.
- Utilisez des listes d’accès IP dynamiques pour autoriser les administrateurs à accéder aux espaces de travail uniquement à partir de leurs réseaux d’entreprise.
- Utilisez la fonctionnalité d’injection de réseau virtuel pour activer des scénarios plus sécurisés.
- Utilisez des journaux de diagnostic pour auditer l’accès et les autorisations de l’espace de travail.
- Envisagez d’utiliser la fonctionnalité de connectivité de cluster sécurisé et l’architecture hub-and-spoke pour empêcher l’ouverture de ports et l’affectation d’adresses IP publiques sur des nœuds de cluster.
Recommandations relatives à la configuration
Explorez le tableau de recommandations suivant afin d’optimiser votre configuration Azure Databricks pour la sécurité :
Recommandation | Description |
---|---|
Assurez-vous que les espaces de travail cloud pour votre analyse ne sont accessibles qu’à des utilisateurs correctement managés. | Microsoft Entra ID peut gérer l’authentification unique pour l’accès à distance. Pour une sécurité accrue, consultez Accès conditionnel. |
Implémentez Azure Private Link. | Veillez à ce que tout le trafic entre les utilisateurs de votre plateforme, les blocs-notes et clusters de calcul qui traitent les requêtes soient chiffrés et transmis sur la dorsale réseau du fournisseur de cloud, inaccessible au monde extérieur. |
Limitez et surveillez vos machines virtuelles. | Les clusters qui exécutent des requêtes doivent disposer d’un accès réseau et SSH limité pour empêcher l’installation de packages arbitraires. Les clusters doivent utiliser uniquement des images analysées régulièrement pour détecter d’éventuelles vulnérabilités. |
Utilisez la fonctionnalité d’injection de réseau virtuel pour activer des scénarios plus sécurisés. | Par exemple : - Connexion à d’autres services Azure à l’aide de points de terminaison de service. - Connexion à des sources de données locales en tirant parti des itinéraires définis par l’utilisateur. - Connexion à une appliance de réseau virtuel pour inspecter tout le trafic sortant et prendre des mesures appropriées pour autoriser et refuser des règles. - Utilisation d’un DNS personnalisé. - Déploiement de clusters Azure Databricks dans des réseaux virtuels existants. |
Utilisez des journaux de diagnostic pour auditer l’accès et les autorisations de l’espace de travail. | Utilisez des journaux d’audit pour voir l’activité privilégiée dans un espace de travail, le redimensionnement de cluster, les fichiers et les dossiers partagés sur le cluster. |
Artefacts sources
Les artefacts sources Azure Databricks incluent le blog Databricks : Meilleures pratiques pour sécuriser une plateforme de données à l’échelle de l’entreprise.