Jak wykrywać i redagować dane osobowe (PII)
Funkcja piI może oceniać tekst bez struktury, wyodrębniać i redact poufnych informacji (PII) oraz informacji o kondycji (PHI) w tekście w kilku wstępnie zdefiniowanych kategoriach.
Opcje programowania
Aby użyć wykrywania danych pii, należy przesłać tekst do analizy i obsłużyć dane wyjściowe interfejsu API w aplikacji. Analiza jest wykonywana zgodnie z rzeczywistym użyciem, bez dostosowywania modelu używanego na danych. Istnieją dwa sposoby używania wykrywania danych przez użytkownika:
Opcja programowania | opis |
---|---|
Studio językowe | Language Studio to platforma internetowa, która umożliwia wypróbowanie łączenia jednostek z przykładami tekstowymi bez konta platformy Azure i własnych danych podczas tworzenia konta. Aby uzyskać więcej informacji, zobacz witrynę internetową language Studio lub przewodnik Szybki start dla programu Language Studio. |
Interfejs API REST lub biblioteka klienta (Zestaw Azure SDK) | Integrowanie wykrywania pii z aplikacjami przy użyciu interfejsu API REST lub biblioteki klienta dostępnej w różnych językach. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący wykrywania danych osobowych. |
Określanie sposobu przetwarzania danych (opcjonalnie)
Określanie modelu wykrywania danych biznesowych
Domyślnie ta funkcja używa najnowszego dostępnego modelu sztucznej inteligencji w tekście. Możesz również skonfigurować żądania interfejsu API tak, aby używały określonej wersji modelu.
Języki wejściowe
Po przesłaniu dokumentów do przetworzenia można określić, w których obsługiwanych językach są zapisywane. Jeśli nie określisz języka, wyodrębnij wartości domyślne dla języka angielskiego. Interfejs API może zwracać przesunięcia w odpowiedzi na obsługę różnych kodowań wielojęzycznych i emoji.
Zasady redaction (tylko wersja 2024-11-5-preview)
w wersji 2024-11-5-preview można zdefiniować redactionPolicy
parametr w celu odzwierciedlenia zasad redagowania, które mają być używane podczas redagowania dokumentu w odpowiedzi. Pole zasad obsługuje 3 typy zasad:
DoNotRedact
MaskWithCharacter
(domyślne)MaskWithEntityType
Zasady DoNotRedact
umożliwiają użytkownikowi zwrócenie odpowiedzi bez redactedText
pola.
Zasady MaskWithRedactionCharacter
umożliwiają redactedText
maskowanie znaku, zachowując długość i przesunięcie oryginalnego tekstu. Jest to istniejące zachowanie.
Istnieje również opcjonalne pole o nazwie redactionCharacter
, w którym można wprowadzić znak, który ma być używany w redaction, jeśli używasz MaskWithCharacter
zasad
Zasady MaskWithEntityType
umożliwiają maskowanie wykrytego tekstu jednostki PII za pomocą wykrytego typu jednostki.
Przesyłanie danych
Analiza jest wykonywana po odebraniu żądania. Synchronicznie korzystanie z funkcji wykrywania danych pii jest bezstanowe. Żadne dane nie są przechowywane na Twoim koncie, a wyniki są zwracane natychmiast w odpowiedzi.
W przypadku korzystania z tej funkcji asynchronicznie wyniki interfejsu API są dostępne przez 24 godziny od momentu pozyskiwania żądania i są wskazywane w odpowiedzi. Po upływie tego okresu wyniki są czyszczone i nie są już dostępne do pobierania.
Wybierz jednostki, które mają zostać zwrócone
Interfejs API próbuje wykryć zdefiniowane kategorie jednostek dla danego języka dokumentów. Jeśli chcesz określić, które jednostki są wykrywane i zwracane, użyj opcjonalnego piiCategories
parametru z odpowiednimi kategoriami jednostek. Ten parametr umożliwia również wykrywanie jednostek, które nie są domyślnie włączone dla języka dokumentów. W poniższym przykładzie wykryto tylko Person
. Można określić co najmniej jeden typ jednostki do zwrócenia.
Napiwek
Jeśli nie uwzględnisz default
podczas określania kategorii jednostek, interfejs API zwraca tylko określone kategorie jednostek.
Wkład:
Uwaga
W tym przykładzie zwraca tylko typ jednostki osoby :
https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01
{
"kind": "PiiEntityRecognition",
"parameters":
{
"modelVersion": "latest",
"piiCategories" :
[
"Person"
]
},
"analysisInput":
{
"documents":
[
{
"id":"1",
"language": "en",
"text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
}
]
},
"kind": "PiiEntityRecognition",
"parameters": {
"redactionPolicy": {
"policyKind": "MaskWithCharacter"
//MaskWithCharacter|MaskWithEntityType|DoNotRedact
"redactionCharacter": "*"
}
Wyjście:
{
"kind": "PiiEntityRecognitionResults",
"results": {
"documents": [
{
"redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
"id": "1",
"entities": [
{
"text": "John Doe",
"category": "Person",
"offset": 226,
"length": 8,
"confidenceScore": 0.98
}
],
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-15"
}
}
Uzyskiwanie wyników danych pii
Po otrzymaniu wyników z wykrywania danych pii można przesyłać strumieniowo wyniki do aplikacji lub zapisywać dane wyjściowe w pliku w systemie lokalnym. Odpowiedź interfejsu API zawiera rozpoznane jednostki, w tym ich kategorie i podkategorie oraz oceny ufności. Zwracany jest również ciąg tekstowy z jednostkami piI, które zostały zredagowane.
Limity usług i danych
Aby uzyskać informacje na temat rozmiaru i liczby żądań, które można wysłać na minutę i sekundę, zobacz artykuł Dotyczący limitów usług.