Vad är identifiering av personligt identifierbar information (PII) i Azure AI Language?
PII-identifiering är en av de funktioner som erbjuds av Azure AI Language, en samling maskininlärnings- och AI-algoritmer i molnet för utveckling av intelligenta program som omfattar skriftligt språk. PII-identifieringsfunktionen kan identifiera, kategorisera och redigera känslig information i ostrukturerad text. Till exempel telefonnummer, e-postadresser och identifieringsformer. Azure AI Language har stöd för allmän pii-redigering av text samt konversations-PII, en specialiserad modell för hantering av talranskriptioner och den mer informella konversationstonen i mötes- och samtalsavskrifter. Tjänsten har också stöd för PII-redigering av interna dokument, där indata och utdata är strukturerade dokumentfiler.
Nyheter
API:et för förhandsgranskning av pii- och konversations-PII-identifiering (version 2024-11-15-preview
) stöder nu alternativet att maskera identifierade känsliga entiteter med en etikett utöver bara redigeringstecken. Kunder har möjlighet att ange om personligt identifierbart informationsinnehåll, till exempel namn och telefonnummer, d.v.s. “John Doe received a call from 424-878-9192”
, maskeras med ett redigeringstecken, dvs. “******** received a call from ************”
eller maskeras med en entitetsetikett, dvs. “[PERSON_1] received a call from [PHONENUMBER_1]”
. Mer information om hur du anger formatmallen för redigeringsprinciper för dina utdata finns i våra instruktioner.
Modellerna för identifiering av konversations-PII (både version 2024-11-01-preview
och GA
) har uppdaterats för att ge förbättrad AI-kvalitet och noggrannhet. Den numeriska identifierarentitetstypen innehåller nu även körkort och Medicare-mottagaridentifierare.
Från och med juni 2024 tillhandahåller vi nu stöd för allmän tillgänglighet för pii-tjänsten konversation (endast engelskspråkig). Kunder kan nu redigera avskrifter, chattar och annan text som skrivits i konversationsstil (dvs. text med "um" s, "ah" s, flera talare och stavning av ord för mer klarhet) med bättre förtroende för AI-kvalitet, Azure SLA-stöd och produktions-omgivningsstöd och säkerhet i företagsklass i åtanke.
Dricks
Prova PII-identifiering i Azure AI Foundry-portalen, där du kan använda en befintlig Language Studio-resurs eller skapa en ny Azure AI Foundry-resurs
- Snabbstarter är komma igång-instruktioner som hjälper dig att göra begäranden till tjänsten.
- Instruktionsguider innehåller instruktioner för hur du använder tjänsten på mer specifika eller anpassade sätt.
- De konceptuella artiklarna innehåller djupgående förklaringar av tjänstens funktioner och funktioner.
Typiskt arbetsflöde
Om du vill använda den här funktionen skickar du data för analys och hanterar API-utdata i ditt program. Analysen utförs som den är, utan någon ytterligare anpassning till den modell som används på dina data.
Skapa en Azure AI Language-resurs som ger dig åtkomst till de funktioner som erbjuds av Azure AI Language. Det genererar ett lösenord (kallas en nyckel) och en slutpunkts-URL som du använder för att autentisera API-begäranden.
Skapa en begäran med antingen REST-API:et eller klientbiblioteket för C#, Java, JavaScript och Python. Du kan också skicka asynkrona anrop med en batchbegäran för att kombinera API-begäranden för flera funktioner i ett enda anrop.
Skicka begäran som innehåller dina textdata. Din nyckel och slutpunkt används för autentisering.
Strömma eller lagra svaret lokalt.
Stöd för inbyggt dokument
Ett internt dokument refererar till det filformat som används för att skapa det ursprungliga dokumentet, till exempel Microsoft Word (docx) eller en bärbar dokumentfil (pdf). Stöd för inbyggt dokument eliminerar behovet av förbearbetning av text innan du använder Resursfunktioner för Azure AI Language. För närvarande är inbyggt dokumentstöd tillgängligt för piiEntityRecognition-funktionen.
För närvarande har PII stöd för följande interna dokumentformat:
Filtyp | Filnamnstillägg | Beskrivning |
---|---|---|
Text | .txt |
Ett oformaterat textdokument. |
Adobe PDF | .pdf |
Ett portabelt dokumentfilformaterat dokument. |
Microsoft Word | .docx |
En Microsoft Word-dokumentfil. |
Mer information finns i Använda inbyggda dokument för språkbearbetning
Kom igång med PII-identifiering
Om du vill använda PII-identifiering skickar du text för analys och hanterar API-utdata i ditt program. Analysen utförs som den är, utan anpassning till den modell som används för dina data. Det finns två sätt att använda PII-identifiering:
Utvecklingsalternativ | beskrivning |
---|---|
Language Studio | Language Studio är en webbaserad plattform där du kan prova entitetslänkning med textexempel utan ett Azure-konto och dina egna data när du registrerar dig. Mer information finns på Language Studio-webbplatsen eller language studio-snabbstarten. |
REST API eller klientbibliotek (Azure SDK) | Integrera PII-identifiering i dina program med hjälp av REST-API:et eller klientbiblioteket som är tillgängligt på olika språk. Mer information finns i snabbstarten för PII-identifiering. |
Referensdokumentation och kodexempel
När du använder den här funktionen i dina program kan du läsa följande referensdokumentation och exempel för Azure AI Language:
Utvecklingsalternativ/språk | Referensdokumentation | Exempel |
---|---|---|
REST-API | Dokumentation om REST API | |
C# | C#-dokumentation | C#-exempel |
Java | Java-dokumentation | Java-exempel |
JavaScript | JavaScript-dokumentation | JavaScript-exempel |
Python | Python-dokumentation | Python-exempel |
Ansvarsfull AI
Ett AI-system innehåller inte bara tekniken, utan även de personer som använder den, de personer som påverkas av den och distributionsmiljön. Läs transparensanteckningen för PII för att lära dig mer om ansvarsfull AI-användning och distribution i dina system. Mer information finns i följande artiklar:
- Transparensanteckning för Azure AI Language
- Integrering och ansvarsfull användning
- Data, sekretess och säkerhet
Exempelscenarier
- Använd känslighetsetiketter – Baserat på resultatet från PII-tjänsten kan till exempel en offentlig känslighetsetikett tillämpas på dokument där inga PII-entiteter identifieras. För dokument där amerikanska adresser och telefonnummer identifieras kan en konfidentiell etikett tillämpas. En strikt konfidentiell etikett kan användas för dokument där bankroutningsnummer identifieras.
- Redigera vissa kategorier av personlig information från dokument som får större spridning – Om kundkontaktposter till exempel är tillgängliga för supportrepresentanter i frontlinjen kan företaget redigera kundens personliga information förutom deras namn från versionen av kundhistoriken för att bevara kundens integritet.
- Redigera personlig information för att minska omedveten bias – Till exempel kan de under ett företags återuppta granskningsprocess blockera namn, adress och telefonnummer för att minska omedvetet kön eller andra fördomar.
- Ersätt personlig information i källdata för maskininlärning för att minska orättvisorna – Om du till exempel vill ta bort namn som kan avslöja kön när du tränar en maskininlärningsmodell kan du använda tjänsten för att identifiera dem och du kan ersätta dem med allmänna platshållare för modellträning.
- Ta bort personlig information från call center-transkription – om du till exempel vill ta bort namn eller andra PII-data som inträffar mellan agenten och kunden i ett call center-scenario. Du kan använda tjänsten för att identifiera och ta bort dem.
- Datarensning för datavetenskap – PII kan användas för att göra data redo för dataforskare och tekniker för att kunna använda dessa data för att träna sina maskininlärningsmodeller. Redigera data för att se till att kunddata inte exponeras.
Nästa steg
Det finns två sätt att komma igång med entitetslänkfunktionen:
- Language Studio, som är en webbaserad plattform som gör att du kan prova flera språktjänstfunktioner utan att behöva skriva kod.
- Snabbstartsartikeln för instruktioner om hur du gör begäranden till tjänsten med hjälp av REST-API:et och klientbibliotekets SDK.