Persoonlijke identificatiegegevens (PII) detecteren en redacteren
De PII-functie kan ongestructureerde tekst evalueren, gevoelige informatie (PII) en gezondheidsinformatie (PHI) extraheren en redacteren in tekst in verschillende vooraf gedefinieerde categorieën.
Ontwikkelingsopties
Als u PII-detectie wilt gebruiken, verzendt u tekst voor analyse en verwerkt u de API-uitvoer in uw toepassing. Analyse wordt uitgevoerd als zodanig, zonder aanpassingen aan het model dat op uw gegevens wordt gebruikt. Er zijn twee manieren om PII-detectie te gebruiken:
Ontwikkelingsoptie | Beschrijving |
---|---|
Taalstudio | Language Studio is een webplatform waarmee u entiteitskoppelingen kunt proberen met tekstvoorbeelden zonder een Azure-account en uw eigen gegevens wanneer u zich aanmeldt. Zie de quickstart voor Language Studio of Language Studio voor meer informatie. |
REST API of clientbibliotheek (Azure SDK) | Integreer PII-detectie in uw toepassingen met behulp van de REST API of de clientbibliotheek die beschikbaar is in verschillende talen. Zie de quickstart voor PII-detectie voor meer informatie. |
Bepalen hoe de gegevens moeten worden verwerkt (optioneel)
Het PII-detectiemodel opgeven
Deze functie maakt standaard gebruik van het meest recente beschikbare AI-model op uw tekst. U kunt uw API-aanvragen ook configureren voor het gebruik van een specifieke modelversie.
Invoertalen
Wanneer u documenten indient die moeten worden verwerkt, kunt u opgeven in welke van de ondersteunde talen ze zijn geschreven. Als u geen taal opgeeft, wordt de standaardinstelling voor extractie ingesteld op Engels. De API retourneert mogelijk offsets in het antwoord ter ondersteuning van verschillende meertalige en emoji-coderingen.
Redaction Policy (alleen versie 2024-11-5-preview)
in versie 2024-11-5-preview kunt u de redactionPolicy
parameter definiëren om het redaction-beleid weer te geven dat moet worden gebruikt bij het redacteren van het document in het antwoord. Het beleidsveld ondersteunt drie beleidstypen:
DoNotRedact
MaskWithCharacter
(standaard)MaskWithEntityType
Met DoNotRedact
het beleid kan de gebruiker het antwoord retourneren zonder het redactedText
veld.
Met MaskWithRedactionCharacter
het beleid kan het redactedText
worden gemaskeerd met een teken, waarbij de lengte en verschuiving van de oorspronkelijke tekst behouden blijven. Dit is het bestaande gedrag.
Er is ook een optioneel veld waarin redactionCharacter
u het teken kunt invoeren dat moet worden gebruikt als redaction als u het MaskWithCharacter
beleid gebruikt
Met MaskWithEntityType
het beleid kunt u de gedetecteerde PII-entiteitstekst maskeren met het gedetecteerde entiteitstype.
Gegevens verzenden
Analyse wordt uitgevoerd na ontvangst van de aanvraag. Het gebruik van de PII-detectiefunctie is synchroon staatloos. Er worden geen gegevens in uw account opgeslagen en de resultaten worden onmiddellijk in het antwoord geretourneerd.
Wanneer u deze functie asynchroon gebruikt, zijn de API-resultaten gedurende 24 uur beschikbaar vanaf het moment dat de aanvraag is opgenomen en wordt aangegeven in het antwoord. Na deze periode worden de resultaten opgeschoond en zijn ze niet meer beschikbaar voor het ophalen.
Selecteren welke entiteiten moeten worden geretourneerd
De API probeert de gedefinieerde entiteitscategorieën voor een bepaalde documenttaal te detecteren. Als u wilt opgeven welke entiteiten worden gedetecteerd en geretourneerd, gebruikt u de optionele piiCategories
parameter met de juiste entiteitscategorieën. Met deze parameter kunt u ook entiteiten detecteren die niet standaard zijn ingeschakeld voor uw documenttaal. In het volgende voorbeeld wordt alleen Person
gedetecteerd. U kunt een of meer entiteitstypen opgeven die moeten worden geretourneerd.
Tip
Als u niet opneemt default
bij het opgeven van entiteitscategorieën, retourneert de API alleen de entiteitscategorieën die u opgeeft.
Input:
Notitie
In dit voorbeeld wordt alleen het entiteitstype persoon geretourneerd:
https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01
{
"kind": "PiiEntityRecognition",
"parameters":
{
"modelVersion": "latest",
"piiCategories" :
[
"Person"
]
},
"analysisInput":
{
"documents":
[
{
"id":"1",
"language": "en",
"text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
}
]
},
"kind": "PiiEntityRecognition",
"parameters": {
"redactionPolicy": {
"policyKind": "MaskWithCharacter"
//MaskWithCharacter|MaskWithEntityType|DoNotRedact
"redactionCharacter": "*"
}
Uitvoer:
{
"kind": "PiiEntityRecognitionResults",
"results": {
"documents": [
{
"redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
"id": "1",
"entities": [
{
"text": "John Doe",
"category": "Person",
"offset": 226,
"length": 8,
"confidenceScore": 0.98
}
],
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-15"
}
}
PII-resultaten ophalen
Wanneer u resultaten van PII-detectie krijgt, kunt u de resultaten streamen naar een toepassing of de uitvoer opslaan in een bestand op het lokale systeem. Het API-antwoord bevat herkende entiteiten, inclusief hun categorieën en subcategorieën en betrouwbaarheidsscores. De tekenreeks met de redacted PII-entiteiten wordt ook geretourneerd.
Service- en gegevenslimieten
Zie het artikel over servicelimieten voor informatie over de grootte en het aantal aanvragen dat u per minuut en seconde kunt verzenden.