Exporter des données sources pour obtenir des types d’informations sensibles basés sur la correspondance exacte des données
Conseil
Si vous n’êtes pas un client E5, utilisez la version d’évaluation de 90 jours des solutions Microsoft Purview pour découvrir comment des fonctionnalités Supplémentaires purview peuvent aider vos organization à gérer les besoins en matière de sécurité et de conformité des données. Commencez maintenant sur le hub d’évaluation Microsoft Purview. En savoir plus sur les conditions d’inscription et d’essai.
S’applique à
La table de données sensibles est un fichier texte contenant des lignes de valeurs par rapport auxquelles vous comparez le contenu de vos documents pour identifier les données sensibles. Ces valeurs peuvent être des informations d’identification personnelle, des enregistrements de produits ou d’autres données sensibles sous forme de texte que vous souhaitez détecter dans votre contenu et protéger.
Une fois que vous avez exporté les données de votre table (dans l’un des formats pris en charge), vous pouvez créer un schéma EDM.
Définition de votre type sensible EDM
Lorsque vous définissez votre type sensible EDM, l’une des décisions les plus critiques consiste à définir les champs qui sont vos champs principaux. Les champs principaux doivent suivre un modèle détectable et être définis en tant que champs (colonnes) pouvant faire l’objet d’une recherche dans votre schéma EDM. Les champs secondaires n’ont pas besoin de suivre un modèle, car ils sont comparés à tous les texte qui entourent les correspondances aux champs principaux.
Utilisez ces règles pour vous aider à déterminer les colonnes que vous devez utiliser comme champs principaux :
- Si vous devez détecter des données sensibles en fonction de la présence d’une valeur unique correspondant à un champ dans votre table de données sensibles, quelle que soit la présence d’autres données sensibles qui l’entourent, cette colonne doit être définie comme élément principal pour un sit EDM.
- Si plusieurs combinaisons de champs différents dans votre table de données sensibles doivent être détectées dans le contenu, identifiez les colonnes communes à la plupart de ces combinaisons et désignez-les comme éléments principaux. Désignez des combinaisons des autres champs en tant qu’éléments secondaires.
- Si une colonne que vous souhaitez utiliser comme élément principal ne suit pas un modèle détectable, comme
any text string
ou suit des modèles détectables qui seraient présents quelque part dans un grand pourcentage de documents ou d’e-mails, choisissez d’autres colonnes mieux structurées comme éléments principaux.
Par exemple, si vous avez les colonnes full name
, date of birth
, account number
et Social Security Number
, même si le prénom et le nom sont les colonnes communes aux différentes combinaisons de données que vous souhaitez détecter, ces chaînes ne suivent pas les modèles facilement identifiables et peuvent être difficiles à définir comme un type d’informations sensibles. Il existe plusieurs raisons à cela :
- certains noms peuvent ne pas commencer par un caractère majuscule
- certains peuvent être formés par deux, trois ou plusieurs mots/chaînes
- certains peuvent contenir des nombres ou d’autres caractères non alphabétiques. Les dates de naissance peuvent être identifiées plus facilement, mais comme chaque e-mail et la plupart des documents contiennent au moins une date, un
DateOfBirth
champ n’est pas non plus un bon candidat. Au lieu de cela, utilisez des champs tels que les numéros de sécurité sociale et les numéros de compte, qui sont de bons candidats pour les champs principaux.
Exemples de modèles de fichiers
Pour faciliter la sélection de vos champs principaux, nous avons rassemblé des exemples de modèles de fichiers pour :
Il s’agit de fichiers de valeurs séparées par des virgules (.csv) qui ont les valeurs les plus couramment utilisées dans ces secteurs verticaux comme en-têtes de colonne, ainsi que les valeurs synthétiques générées par Microsoft dans les lignes. Utilisez les en-têtes de colonne pour vous aider à choisir vos champs principaux. La meilleure pratique consiste à exporter uniquement les données sources requises. Les en-têtes de colonne suggèrent les champs les plus pertinents.
Pour savoir comment utiliser les exemples de modèles de fichiers, consultez Guide pratique pour utiliser les exemples de modèles de fichiers.
Enregistrer des données sensibles au format .csv, .tsv ou séparé par des canaux
Identifiez les informations sensibles que vous voulez utiliser. Exportez les données vers une application telle que Microsoft Excel et enregistrez le fichier en tant que fichier texte. Le fichier peut être enregistré dans l’un des formats suivants : .csv (valeurs séparées par des virgules), .tsv (valeurs séparées par des tabulations) ou (|) (séparé par des canaux). Le format .tsv est recommandé dans les cas où vos valeurs de données peuvent inclure des virgules, telles que des adresses postales. Le fichier de données peut inclure au maximum :
- 100 millions de lignes de données sensibles
- 32 colonnes (champs) par source de données
- Jusqu’à 10 colonnes (champs) marquées comme pouvant faire l’objet d’une recherche
Structurez les données sensibles dans le fichier .csv ou .tsv de sorte que la première ligne contienne les noms des champs utilisés pour la classification basée sur EDM. Dans votre fichier, vous pouvez avoir des noms de champs tels que « ssn », « birthdate », « firstname », « lastname ». Les noms d’en-tête de colonne ne peuvent pas contenir des espaces ni des traits de soulignement. Par exemple, le fichier .csv utilisé dans cet exemple est appelé PatientRecords.csv. Ses colonnes incluent PatientID, MRN, LastName, FirstName, SSN, etc.
Faites attention au format des champs de données sensibles ; en particulier, les champs qui peuvent contenir des virgules dans leur contenu. Par exemple, une adresse postale qui contient la valeur « Seattle, WA » est analysée en tant que deux champs distincts si le format .csv est sélectionné. Pour éviter cela, utilisez le format .tsv ou entouré la virgule contenant les valeurs par des guillemets doubles dans la table de données sensibles. Si des virgules contenant des valeurs contiennent également des espaces, vous devez créer un sit personnalisé qui correspond au format correspondant. Par exemple, un sit qui détecte une chaîne à plusieurs mots avec des virgules et des espaces.
Étape suivante
- Pour une nouvelle expérience : créer un exemple de fichier SIT EDM pour la nouvelle expérience
ou
- Pour l’expérience classique : créer le schéma pour les types d’informations sensibles basés sur la correspondance exacte des données