Brouillage des données pour les applications SAP en utilisant Delphix et Azure Data Factory

Azure Data Factory

Azure Synapse Analytics

Dans de nombreuses entreprises, SAP est l’application la plus stratégique et le système d’enregistrement principal pour un large éventail de données. Les entreprises doivent être en mesure d’exploiter des données puissantes pour l’analytique à la fois à partir de SAP et de ses applications en amont/en aval de manière économique, scalable et flexible. Dans le même temps, les entreprises doivent également s’assurer que ces données sont conformes à une myriade de réglementations.

Architecture

L’architecture suivante décrit l’utilisation de Delphix CC dans un pipeline Azure Data Factory/Azure Synapse pour identifier et masquer les données sensibles.

Téléchargez un fichier Visio de cette architecture.

qu’est-ce qu’Azure Data Factory ?

Azure Data Factory est un service d’intégration de données serverless complètement managé. Il offre une expérience visuelle enrichie pour l’intégration de sources de données avec plus de 100 connecteurs intégrés et sans frais supplémentaires. Construisez facilement des processus ETL (Extract, Transform, and Load) et Extract, Load, and Transform (ELT) sans code dans un environnement intuitif, ou écrivez votre propre code. Fournissez ensuite des données intégrées à Azure Synapse Analytics pour exploiter toute la puissance de vos données par le biais d’insights métier.

Qu’est-ce que la conformité continue de Delphix (Delphix CC) ?

La conformité continue de Delphix (Delphix CC) identifie les informations sensibles et automatise le masquage/brouillage des données. Elle offre un moyen rapide, automatisé et piloté par l’API de fournir des données sécurisées où elles sont nécessaires dans les organisations.

Comment Delphix CC et Azure Data Factory résolvent-ils l’automatisation des données conformes ?

Le déplacement de données sécurisées est un défi pour toutes les organisations. Delphix facilite la conformité des données cohérente, tandis qu’Azure Data Factory permet de connecter et de déplacer des données de manière fluide. Ensemble, Delphix CC et Azure Data Factory combinent des offres de conformité et d’automatisation de pointe pour faciliter la livraison de données à la demande et conformes à tous.

En utilisant les connecteurs de source de données proposés par Azure Data Factory, nous avons créé un pipeline ETL qui permet à un utilisateur final d’automatiser les étapes suivantes :

Lire les données du système d’enregistrement (SAP HANA) et les écrire dans des fichiers CSV sur Stockage Azure.
Exécuter un travail de masquage de Delphix sur les fichiers pour remplacer les éléments de données sensibles par des valeurs similaires mais fictives.
Charger les données conformes sur Azure Synapse Analytics.

Dataflow

Les données circulent dans le scénario comme suit :

Azure Data Factory extrait les données du magasin de données source (SAP HANA) vers un conteneur dans Azure Files en utilisant l’activité Copier des données. Ce conteneur est appelé conteneur de données source et les données sont au format CSV. Pour utiliser le connecteur SAP HANA, Microsoft recommande l’utilisation d’un runtime d’intégration auto-hébergé. Pour plus d’informations, consultez ce guide pratique.
Data Factory lance un itérateur (activité ForEach) qui effectue une boucle dans une liste de travaux de masquage configurés dans Delphix. Ces travaux de masquage sont préconfigurés et masquent les données sensibles présentes dans le conteneur de données source.
Pour chaque travail de la liste, l’activité Lancer le masquage s’authentifie et lance le travail de masquage en appelant les points de terminaison de l’API REST sur le moteur Delphix CC.
Le moteur Delphix CC lit les données du conteneur de données source et passe par le processus de masquage.
Dans ce processus de masquage, Delphix masque les données en mémoire et réécrit les données masquées résultantes dans un conteneur de fichiers Azure cible (appelé conteneur de données cible).
Data Factory lance maintenant un deuxième itérateur (activité ForEach) qui supervise les exécutions.
Pour chaque exécution (travail de masquage) démarrée, l’activité Vérifier l’état vérifie le résultat du masquage.
Une fois tous les travaux de masquage terminés, la fabrique de données charge les données masquées du conteneur de données cible vers Azure Synapse Analytics.

Composants

Azure Data Factory est un service ETL qui permet le scale-out de l’intégration et la transformation de données serverless. Il offre une interface utilisateur sans code pour une création intuitive et une supervision et une gestion dans une seule et même vue.
Le Stockage Azure stocke les données extraites des magasins de données sources et les données masquées qui seront chargées dans les magasins de données de destination.
Les groupes de ressources sont des conteneurs logiques pour des ressources Azure. Les groupes de ressources organisent tout ce qui concerne ce projet dans la console Azure.
Le runtime d’intégration auto-hébergé doit être configuré et un pilote ODBC SAP HANA doit être installé pour l’extraction des données à partir de SAP HANA.
Facultatif : le Réseau virtuel Azure fournit des fonctionnalités de réseau privé pour les ressources Azure qui ne font pas partie de l’espace de travail Azure Synapse. Il vous permet de gérer l’accès, la sécurité et le routage entre les ressources.

Cas d’usage potentiels

Déplacez automatiquement des données conformes d’applications SAP (l’architecture décrite ici est spécifique aux applications SAP avec un back-end HANA) vers Microsoft Synapse pour fournir aux analystes les données dont ils ont besoin pour effectuer des tests de manière rapide, scalable et économique. Effectuez des millions d’opérations de brouillage en quelques minutes.
Mettez automatiquement le framework exhaustif de l’algorithme Delphix en position de répondre à toutes les exigences réglementaires applicables à vos données (par exemple, pour se conformer au règlement général sur la protection des données (RGPD), au CCPA, au LGPD et à l’HIPAA).
Masquez/brouillez les données de manière cohérente entre les sources de données, tout en conservant l’intégrité référentielle pour les tests d’application intégrés. Par exemple, le nom de George doit toujours être masqué par Elliot ou un numéro de sécurité sociale donné (SSN) doit toujours être masqué par le même SSN fictif, que George et son SSN apparaissent dans SAP, Oracle, Salesforce ou n’importe quelle autre application.
Masquez/brouillez les données d’une manière qui n’augmente pas les cycles d’entraînement et qui n’impacte pas la justesse du modèle ou de la prédiction.
Configurez une solution qui fonctionne à la fois pour l’environnement local et le cloud, en modifiant simplement les connecteurs sources. Par exemple, vous pouvez extraire des données d’une application SAP locale, les répliquer dans le cloud et garantir la conformité avant le chargement dans Synapse.

Principaux avantages

Masquage/brouillage déterministe réaliste qui maintient l’intégrité référentielle
Identification préventive des données sensibles pour les tables et modules SAP les plus courants
Exécution cloud native
Déploiement basé sur un modèle
Évolutif
Alternative peu coûteuse à une configuration matérielle HANA en mémoire

Prise en main

Déployez le moteur Delphix CC sur Azure.
Dans Azure Data Factory, déployez les modèles Masquage des données avec Delphix et Découverte de données sensibles avec Delphix. Remarque : Ces modèles fonctionnent à la fois pour les pipelines Azure Synapse Analytics et les pipelines Azure Data Factory.
Configurez un runtime d’intégration auto-hébergé comme décrit dans ce guide pratique pour extraire des données de SAP HANA.
Dans les composants Copier des données, configurez la source souhaitée en tant que SAP HANA à l’étape Extraire et Synapse comme cible souhaitée à l’étape Charger. Dans les composants d’activité web, entrez l’adresse IP et le nom d’hôte de l’application Delphix ainsi que les informations d’identification pour s’authentifier auprès des API Delphix CC.
Exécutez le modèle Azure Data Factory Découverte de données sensibles avec Delphix pour l’installation initiale et chaque fois que vous souhaitez pré-identifier des données sensibles (par exemple, en cas de changement de schéma). Ce modèle fournit à Delphix CC la configuration initiale requise pour rechercher les colonnes susceptibles de contenir des données sensibles. Vous pouvez également l’utiliser conjointement à l’accélérateur de conformité Delphix pour SAP, aux champs sensibles pré-identifiés et aux algorithmes de masquage pour protéger les données dans les principales tables SAP, par exemple les modules Finance, RH et Logistics. Si cette option vous intéresse, contactez Delphix.
Créez un ensemble de règles indiquant la collection de données que vous souhaitez profiler. Exécutez un travail de profilage dans l’interface utilisateur de Delphix pour identifier et classifier les champs sensibles pour cet ensemble de règles et affecter les algorithmes de masquage appropriés.
Exécutez le modèle. Une fois la procédure effectuée, vous aurez masqué des données (telles que pré-identifiées pour les principales tables et modules par l’accélérateur de conformité Delphix pour SAP) dans Azure Synapse Analytics.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

Delphix CC masque de manière irréversible les valeurs de données avec des données réalistes qui restent entièrement fonctionnelles, ce qui permet de développer du code de qualité supérieure. Parmi l’ensemble riche d’algorithmes disponibles pour transformer des données en spécifications utilisateur, Delphix CC a un algorithme breveté qui produit intentionnellement des collisions de données et en même temps permet de saler des données avec des valeurs spécifiques nécessaires pour les routines de validation potentielles exécutées sur le jeu de données masqué. D’un point de vue Confiance nulle, les opérateurs n’ont pas besoin d’accéder aux données réelles pour le masquer. En outre, toute la livraison de données masquées du point A au point B peut être automatisée via des API.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

En ajustant les valeurs sur la calculatrice de prix Azure, vous pouvez voir comment vos exigences particulières affectent les coûts.

Azure Synapse : vous pouvez mettre à l’échelle les niveaux de calcul et de stockage indépendamment. Les ressources de calcul sont facturées à l’heure, et vous pouvez mettre ces ressources à l’échelle ou en pause à la demande. Les ressources de stockage sont facturées au téraoctet. Vos coûts augmentent donc en fonction du volume de données ingéré.

Data Factory : les coûts sont basés sur le nombre d’opérations de lecture/écriture et de supervision et sur les activités d’orchestration effectuées dans une charge de travail. Vos coûts de fabrique de données augmentent avec chaque flux de données supplémentaire et la quantité de données traitées par chacun d’eux.

Delphix CC : Contrairement à d’autres produits de conformité des données sur le marché, le masquage ne nécessite pas une copie physique complète de l’environnement masqué. La redondance de l’environnement peut être coûteuse en raison du temps de configuration et de maintenance de l’infrastructure, du coût de l’infrastructure elle-même et du temps passé à charger à plusieurs reprises des données physiques dans l’environnement de masquage.

Efficacité des performances

L’efficacité des performances est la capacité de votre charge de travail à s’adapter à la demande des utilisateurs de façon efficace. Pour plus d’informations, consultez Vue d’ensemble du pilier d’efficacité des performances.

Delphix CC est horizontalement et verticalement évolutif. Les transformations se produisent en mémoire et peuvent être parallélisées. Le produit s’exécute en tant que service et en tant qu’appliance à plusieurs nœuds, ce qui permet aux architectures de solutions de toutes tailles en fonction de l’application. Delphix est le leader du marché dans la fourniture de jeux de données masqués volumineux.

Le masquage des flux peut être augmenté pour impliquer plusieurs cœurs de processeur dans un travail. (Des recommandations de configuration et des informations sur la modification de l’allocation de mémoire sont disponibles ici : https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/)

Pour des performances optimales pour les jeux de données de taille supérieure à 1 To, le masquage Hyperscale Delphix interrompt les jeux de données volumineux et complexes en de nombreux modules, puis orchestre les travaux de masquage sur plusieurs moteurs de conformité continus.

Contributeurs

Cet article a été écrit par les contributeurs suivants.

Auteurs principaux :

Tess Maggio – Product Manager 2
Arun Saju – Senior Staff Engineer
Mick Shieh – SAP Global Practice Leader

Autres contributeurs :

Michael Torok – Senior Director of Digital Customer Experience
Abhishek Narain - Responsable de programme senior
Jon Burchel - Développeur en chef de contenu

Étapes suivantes

Prise en main de Delphix CC
En savoir plus sur le masquage cohérent des données dans SAP et d’autres sources de données
Afficher les clients à l’aide de Delphix sur Azure

Partager via