Partager via


Comment détecter et masquer les informations d’identification personnelle

La fonctionnalité de détection des informations d’identification personnelle permet d’évaluer des textes non structurés, d’extraire et d’expurger les informations sensibles et les informations médicales contenues dans les textes selon plusieurs catégories prédéfinies.

Options de développement

Pour utiliser la détection des informations d'identification personnelle (PII), vous envoyez du texte à des fins d'analyse et gérez la sortie de l'API dans votre application. L’analyse est effectuée telle quelle, sans personnalisation du modèle utilisé sur vos données. Il existe deux façons d’utiliser la détection des informations d’identification personnelle (PII) :

Option de développement Description
Language studio Language Studio est une plateforme web qui vous permet d’essayer la liaison d’entités avec des exemples de texte sans compte Azure et vos propres données lorsque vous vous inscrivez. Pour plus d’informations, consultez le site web Language Studio ou le démarrage rapide de Language Studio.
API REST ou bibliothèque de client (SDK Azure) Intégrez la détection des informations d’identification personnelle dans vos applications à l’aide de l’API REST ou de la bibliothèque de client disponible dans divers langages. Pour en savoir plus, consultez le guide de démarrage rapide de la détection des informations d’identification personnelle (PII).

Déterminer le mode de traitement des données (facultatif)

Spécifier le modèle de détection des informations d’identification personnelle

Par défaut, cette fonctionnalité utilise le dernier modèle IA disponible sur votre texte. Vous pouvez également configurer vos requêtes d’API pour utiliser une version de modèle spécifique.

Langues de saisie

Lorsque vous envoyez des documents à traiter, vous pouvez spécifier les langues prises en charge dans lesquelles elles sont écrites. Si vous ne spécifiez pas de langue, l’extraction est par défaut en anglais. L’API peut retourner des décalages dans la réponse pour prendre en charge différents encodages multilingues et d’émoji.

Stratégie de rédaction (version 2024-05-11-preview uniquement)

dans la version 2024-5-11-preview, vous pouvez définir le paramètre redactionPolicy pour refléter la stratégie de rédaction à utiliser lors de la rédaction du document dans la réponse. Le champ de stratégie prend en charge 3 types de stratégies :

  • DoNotRedact
  • MaskWithCharacter (valeur par défaut)
  • MaskWithEntityType

La stratégie DoNotRedact permet à l’utilisateur de retourner la réponse sans le champ redactedText.

La stratégie MaskWithRedactionCharacter permet au redactedText d’être masqué avec un caractère, en conservant la longueur et le décalage du texte d’origine. Il s’agit du comportement existant.

Il existe également un champ facultatif appelé redactionCharacter où vous pouvez entrer le caractère à utiliser dans la rédaction si vous utilisez la stratégie de MaskWithCharacter

La stratégie MaskWithEntityType vous permet de masquer le texte de l’entité PII détectée avec le type d’entité détecté.

Envoi de données

L’analyse est effectuée à la réception de la demande. L’utilisation de la fonctionnalité de détection des informations d’identification personnelle de façon synchrone est sans état. Aucune donnée n’est stockée dans votre compte, et les résultats sont retournés immédiatement dans la réponse.

Lors de l’utilisation de cette fonctionnalité de manière asynchrone, les résultats de l’API sont disponibles pendant 24 heures à partir du moment où la requête a été ingérée, et sont indiqués dans la réponse. Après cette période, les résultats sont purgés et ne sont plus disponibles pour récupération.

Sélectionner les entités à renvoyer

L’API tente de détecter les catégories définies de l’entité pour une langue de document donnée. Si vous souhaitez spécifier les entités détectées et retournées, utilisez le paramètre piiCategories facultatif avec les catégories d’entités appropriées. Ce paramètre peut également vous permettre de détecter les entités qui ne sont pas activées par défaut pour la langue de votre document. L’exemple suivant détecte uniquement Person. Vous pouvez spécifier un ou plusieurs types d’entités à renvoyer.

Conseil

Si vous n’incluez pas default lors de la spécification de catégories d’entités, l’API retourne uniquement les catégories d’entités que vous spécifiez.

Entrée :

Remarque

Dans cet exemple, elle retourne uniquement le type d’entité personne:

https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01

{
    "kind": "PiiEntityRecognition",
    "parameters": 
    {
        "modelVersion": "latest",
        "piiCategories" :
        [
            "Person"
        ]
    },
    "analysisInput":
    {
        "documents":
        [
            {
                "id":"1",
                "language": "en",
                "text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
            }
        ]
    },
    "kind": "PiiEntityRecognition", 
    "parameters": { 
        "redactionPolicy": { 
            "policyKind": "MaskWithCharacter"  
             //MaskWithCharacter|MaskWithEntityType|DoNotRedact 
            "redactionCharacter": "*"  
}

Sortie :


{
    "kind": "PiiEntityRecognitionResults",
    "results": {
        "documents": [
            {
                "redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
                "id": "1",
                "entities": [
                    {
                        "text": "John Doe",
                        "category": "Person",
                        "offset": 226,
                        "length": 8,
                        "confidenceScore": 0.98
                    }
                ],
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2021-01-15"
    }
}

Obtention des résultats sur les informations d’identification personnelle

Lorsque vous recevez des résultats de la détection des informations d’identification personnelle, vous pouvez diffuser les résultats dans une application ou enregistrer la sortie dans un fichier sur le système local. La réponse de l’API inclut entités reconnues, y compris leurs catégories et sous-catégories, et les scores de confiance. La chaîne de texte avec les entités d’identification personnelle est également retournée.

Limites du service et des données

Pour connaître la taille et le nombre de demandes que vous pouvez envoyer par minute et seconde, consultez l’article Limites de service.

Étapes suivantes

Vue d’ensemble de Reconnaissance d’entité nommée