Dela via


Så här identifierar och redigerar du personligt identifierande information (PII)

PII-funktionen kan utvärdera ostrukturerad text, extrahera och redigera känslig information (PII) och hälsoinformation (PHI) i text i flera fördefinierade kategorier.

Utvecklingsalternativ

Om du vill använda PII-identifiering skickar du text för analys och hanterar API-utdata i ditt program. Analysen utförs som den är, utan anpassning till den modell som används för dina data. Det finns två sätt att använda PII-identifiering:

Utvecklingsalternativ beskrivning
Language Studio Language Studio är en webbaserad plattform där du kan prova entitetslänkning med textexempel utan ett Azure-konto och dina egna data när du registrerar dig. Mer information finns på Language Studio-webbplatsen eller language studio-snabbstarten.
REST API eller klientbibliotek (Azure SDK) Integrera PII-identifiering i dina program med hjälp av REST-API:et eller klientbiblioteket som är tillgängligt på olika språk. Mer information finns i snabbstarten för PII-identifiering.

Bestämma hur data ska bearbetas (valfritt)

Ange PII-identifieringsmodellen

Som standard använder den här funktionen den senaste tillgängliga AI-modellen i din text. Du kan också konfigurera dina API-begäranden att använda en specifik modellversion.

Indataspråk

När du skickar dokument som ska bearbetas kan du ange vilket av de språk som stöds som de är skrivna i. Om du inte anger något språk kan du använda standardvärdet engelska för extrahering. API:et kan returnera förskjutningar i svaret för att stödja olika flerspråkiga kodningar och emojikodningar.

Redigeringsprincip (endast version 2024-11-5-preview)

I version 2024-11-5-preview kan du definiera parametern redactionPolicy för att återspegla den redigeringsprincip som ska användas när dokumentet redigeras i svaret. Principfältet stöder tre principtyper:

  • DoNotRedact
  • MaskWithCharacter (standard)
  • MaskWithEntityType

Principen DoNotRedact gör att användaren kan returnera svaret utan fältet redactedText .

Principen MaskWithRedactionCharacter tillåter att den redactedText maskeras med ett tecken, vilket bevarar längden och förskjutningen av den ursprungliga texten. Det här är det befintliga beteendet.

Det finns också ett valfritt fält med namnet redactionCharacter där du kan ange det tecken som ska användas i redigeringen MaskWithCharacter om du använder principen

Med MaskWithEntityType principen kan du maskera den identifierade PII-entitetstexten med den identifierade entitetstypen.

Skicka data

Analysen utförs när begäran har tagits emot. Användning av PII-identifieringsfunktionen är synkront tillståndslös. Inga data lagras i ditt konto och resultatet returneras omedelbart i svaret.

När du använder den här funktionen asynkront är API-resultaten tillgängliga i 24 timmar från den tidpunkt då begäran matades in och anges i svaret. Efter den här tidsperioden rensas resultaten och är inte längre tillgängliga för hämtning.

Välj vilka entiteter som ska returneras

API:et försöker identifiera de definierade entitetskategorierna för ett visst dokumentspråk. Om du vill ange vilka entiteter som identifieras och returneras använder du den valfria piiCategories parametern med lämpliga entitetskategorier. Med den här parametern kan du också identifiera entiteter som inte är aktiverade som standard för ditt dokumentspråk. I följande exempel identifieras endast Person. Du kan ange en eller flera entitetstyper som ska returneras.

Dricks

Om du inte inkluderar default när du anger entitetskategorier returnerar API:et endast de entitetskategorier som du anger.

Inmatning:

Kommentar

I det här exemplet returneras endast entitetstypen person :

https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01

{
    "kind": "PiiEntityRecognition",
    "parameters": 
    {
        "modelVersion": "latest",
        "piiCategories" :
        [
            "Person"
        ]
    },
    "analysisInput":
    {
        "documents":
        [
            {
                "id":"1",
                "language": "en",
                "text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
            }
        ]
    },
    "kind": "PiiEntityRecognition", 
    "parameters": { 
        "redactionPolicy": { 
            "policyKind": "MaskWithCharacter"  
             //MaskWithCharacter|MaskWithEntityType|DoNotRedact 
            "redactionCharacter": "*"  
}

Utdata:


{
    "kind": "PiiEntityRecognitionResults",
    "results": {
        "documents": [
            {
                "redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
                "id": "1",
                "entities": [
                    {
                        "text": "John Doe",
                        "category": "Person",
                        "offset": 226,
                        "length": 8,
                        "confidenceScore": 0.98
                    }
                ],
                "warnings": []
            }
        ],
        "errors": [],
        "modelVersion": "2021-01-15"
    }
}

Hämta PII-resultat

När du får resultat från PII-identifiering kan du strömma resultatet till ett program eller spara utdata till en fil i det lokala systemet. API-svaret innehåller identifierade entiteter, inklusive deras kategorier och underkategorier, samt konfidenspoäng. Textsträngen med PII-entiteterna redigerade returneras också.

Tjänst- och datagränser

Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i artikeln om tjänstbegränsningar .

Nästa steg

Översikt över namngiven entitetsigenkänning