Så här identifierar och redigerar du personligt identifierande information (PII) i konversationer

Artikel
11/19/2024

Funktionen Konversations-PII kan utvärdera konversationer för att extrahera känslig information (PII) i innehållet i flera fördefinierade kategorier och redigera dem. Det här API:et fungerar både med transkriberad text (refereras till som avskrifter) och chattar. För avskrifter möjliggör API:et även redigering av ljudsegment, som innehåller PII-information genom att tillhandahålla information om ljudtid för dessa ljudsegment.

Bestämma hur data ska bearbetas (valfritt)

Ange PII-identifieringsmodellen

Som standard använder den här funktionen den senaste tillgängliga AI-modellen på dina indata. Du kan också konfigurera dina API-begäranden att använda en specifik modellversion.

Språkstöd

Mer information finns på sidan SUPPORT för PII-språk. För närvarande stöder den konversationsbaserade PII GA-modellen endast det engelska språket. Förhandsgranskningsmodellen och API:et stöder samma listspråk som de andra språktjänsterna.

Stöd för regioner

API:et för konversations-PII stöder alla Azure-regioner som stöds av språktjänsten.

Skicka data

Kommentar

Mer information om hur du formaterar konversationstext för att skicka med Language Studio finns i Language Studio-artikeln .

Du kan skicka indata till API:et som en lista över konversationsobjekt. Analysen utförs när begäran har tagits emot. Eftersom API:et är asynkront kan det uppstå en fördröjning mellan att skicka en API-begäran och att ta emot resultaten. Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i datagränserna nedan.

När du använder funktionen async är API-resultaten tillgängliga i 24 timmar från den tidpunkt då begäran matades in och anges i svaret. Efter den här tidsperioden rensas resultaten och är inte längre tillgängliga för hämtning.

När du skickar data till konversations-PII kan du skicka en konversation (chatt eller talat) per begäran.

API:et försöker identifiera alla definierade entitetskategorier för en viss konversationsinmatning. Om du vill ange vilka entiteter som identifieras och returneras använder du den valfria piiCategories parametern med lämpliga entitetskategorier.

För talade avskrifter returneras de identifierade entiteterna på det redactionSource angivna parametervärdet. För närvarande är de värden som stöds för redactionSource , lexical, itnoch maskedItn (som mappar till SPEECH till TEXT REST API:ets display\displayText, lexicalitn respektive maskedItn format).text För talavskriftsindata tillhandahåller det här API:et även information om ljudtid för att underlätta ljudredigering. Använd den valfria includeAudioRedaction flaggan med true värde för att använda funktionen audioRedaction. Ljudredigeringen utförs baserat på det lexikala indataformatet.

Kommentar

Konversations-PII stöder nu 40 000 tecken som dokumentstorlek.

Hämta PII-resultat

När du får resultat från PII-identifiering kan du strömma resultatet till ett program eller spara utdata till en fil i det lokala systemet. API-svaret innehåller identifierade entiteter, inklusive deras kategorier och underkategorier, samt konfidenspoäng. Textsträngen med PII-entiteterna redigerade returneras också.

Gå till resursöversiktssidan i Azure Portal
På menyn till vänster väljer du Nycklar och Slutpunkt. Du behöver en av nycklarna och slutpunkten för att autentisera dina API-begäranden.
Ladda ned och installera klientbibliotekspaketet för valfritt språk:

Språk Paketversion

.NET 1.0.0

Python 1.0.0
Mer information om klienten och returobjekt finns i följande referensdokumentation:
- C#
- Python

Språk	Paketversion
.NET	1.0.0
Python	1.0.0

Redigeringsprincip (endast version 2024-11-15-preview)

I version 2024-11-15-preview kan du definiera parametern redactionPolicy så att den återspeglar den redigeringsprincip som ska användas när dokumentet redigeras i svaret. Principfältet stöder tre principtyper:

noMask
characterMask (standard)
entityMask

Principen noMask gör att användaren kan returnera svaret utan fältet redactedText .

Principen characterMask tillåter att den redactedText maskeras med ett tecken, vilket bevarar längden och förskjutningen av den ursprungliga texten. Det här är det befintliga beteendet.

Det finns också ett valfritt fält med namnet redactionCharacter där du kan ange det tecken som ska användas i redigeringen characterMask om du använder principen

Med entityMask principen kan du maskera den identifierade PII-entitetstexten med den identifierade entitetstypen

Använd följande exempel om du vill ändra redigeringsprincipen.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
'
{ 
    "displayName": "Analyze conversations from xxx", 
    "analysisInput": { 
        "conversations": [ 
            { 
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5", 
                "language": "en", 
                "modality": "text", 
                "conversationItems": [ 
                    { 
                        "participantId": "agent_1", 
                        "id": "1", 
                        "text": "Good morning." 
                    }, 
                    { 
                        "participantId": "agent_1", 
                        "id": "2", 
                        "text": "Can I have your name?" 
                    }, 
                    { 
                        "participantId": "customer_1", 
                        "id": "3", 
                        "text": "Sure that is John Doe." 
                    } 
                ] 
            } 
        ] 
    }, 
    "tasks": [ 
        { 
            "taskName": "analyze 1", 
            "kind": "ConversationalPIITask", 
            "parameters": { 
                "modelVersion": "2023-04-15-preview", 
                “redactionCharacter” 
                "redactionPolicy": { 
                    "policyKind": "characterMask", 
                    //characterMask|entityMask|noMask 
                    "redactionCharacter": "*" 
                } 
            } 
        } 
    ] 
} 
`

Skicka avskrifter med tal till text

Använd följande exempel om du har transkriberade konversationer med hjälp av speech-tjänstens tal till text-funktion :

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

Skicka textchatt

Använd följande exempel om du har konversationer som har sitt ursprung i text. Till exempel konversationer via en textbaserad chattklient.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview"
            }
        }
    ]
}
`

Hämta resultatet

operation-location Hämta från svarshuvudet. Värdet ser ut ungefär som följande URL:

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

Använd följande cURL-kommando för att hämta resultatet av begäran. Ersätt my-job-id med det numeriska ID-värdet som du fick från föregående operation-location svarsrubrik:

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

Tjänst- och datagränser

Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i artikeln om tjänstbegränsningar .

Dela via