Så här identifierar och redigerar du personligt identifierande information (PII) i konversationer
Funktionen Konversations-PII kan utvärdera konversationer för att extrahera känslig information (PII) i innehållet i flera fördefinierade kategorier och redigera dem. Det här API:et fungerar både med transkriberad text (refereras till som avskrifter) och chattar. För avskrifter möjliggör API:et även redigering av ljudsegment, som innehåller PII-information genom att tillhandahålla information om ljudtid för dessa ljudsegment.
Bestämma hur data ska bearbetas (valfritt)
Ange PII-identifieringsmodellen
Som standard använder den här funktionen den senaste tillgängliga AI-modellen på dina indata. Du kan också konfigurera dina API-begäranden att använda en specifik modellversion.
Språkstöd
Mer information finns på sidan SUPPORT för PII-språk. För närvarande stöder den konversationsbaserade PII GA-modellen endast det engelska språket. Förhandsgranskningsmodellen och API:et stöder samma listspråk som de andra språktjänsterna.
Stöd för regioner
API:et för konversations-PII stöder alla Azure-regioner som stöds av språktjänsten.
Skicka data
Kommentar
Mer information om hur du formaterar konversationstext för att skicka med Language Studio finns i Language Studio-artikeln .
Du kan skicka indata till API:et som en lista över konversationsobjekt. Analysen utförs när begäran har tagits emot. Eftersom API:et är asynkront kan det uppstå en fördröjning mellan att skicka en API-begäran och att ta emot resultaten. Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i datagränserna nedan.
När du använder funktionen async är API-resultaten tillgängliga i 24 timmar från den tidpunkt då begäran matades in och anges i svaret. Efter den här tidsperioden rensas resultaten och är inte längre tillgängliga för hämtning.
När du skickar data till konversations-PII kan du skicka en konversation (chatt eller talat) per begäran.
API:et försöker identifiera alla definierade entitetskategorier för en viss konversationsinmatning. Om du vill ange vilka entiteter som identifieras och returneras använder du den valfria piiCategories
parametern med lämpliga entitetskategorier.
För talade avskrifter returneras de identifierade entiteterna på det redactionSource
angivna parametervärdet. För närvarande är de värden som stöds för redactionSource
, lexical
, itn
och maskedItn
(som mappar till SPEECH till TEXT REST API:ets display
\displayText
, lexical
itn
respektive maskedItn
format).text
För talavskriftsindata tillhandahåller det här API:et även information om ljudtid för att underlätta ljudredigering. Använd den valfria includeAudioRedaction
flaggan med true
värde för att använda funktionen audioRedaction. Ljudredigeringen utförs baserat på det lexikala indataformatet.
Kommentar
Konversations-PII stöder nu 40 000 tecken som dokumentstorlek.
Hämta PII-resultat
När du får resultat från PII-identifiering kan du strömma resultatet till ett program eller spara utdata till en fil i det lokala systemet. API-svaret innehåller identifierade entiteter, inklusive deras kategorier och underkategorier, samt konfidenspoäng. Textsträngen med PII-entiteterna redigerade returneras också.
Exempel
Gå till resursöversiktssidan i Azure Portal
På menyn till vänster väljer du Nycklar och Slutpunkt. Du behöver en av nycklarna och slutpunkten för att autentisera dina API-begäranden.
Ladda ned och installera klientbibliotekspaketet för valfritt språk:
Språk Paketversion .NET 1.0.0 Python 1.0.0 Mer information om klienten och returobjekt finns i följande referensdokumentation:
Tjänst- och datagränser
Information om storleken och antalet begäranden som du kan skicka per minut och sekund finns i artikeln om tjänstbegränsningar .