Rozpoznawanie jednostek danych osobowych (PII)
Wykrywanie danych osobowych (danych osobowych) to funkcja oferowana przez język sztucznej inteligencji platformy Azure. Identyfikuje, kategoryzuje i redaguje dane osobowe w tekście bez struktury. Dane osobowe obejmują adresy e-mail, numery telefonów, informacje o płatności itp.
Istnieje kilka sposobów wywoływania interfejsu API wykrywania danych pii. W tym miejscu używasz rozszerzenia do przetwarzania azure_ai
danych piI z tekstu w zapytaniach SQL.
Wymagania wstępne
Potrzebujesz serwera elastycznego usługi Azure Database for PostgreSQL z włączonym i skonfigurowanym azure_ai
rozszerzeniem. Należy również autoryzować ją za pomocą usług Azure Cognitive Services, ustawiając klucz i punkt końcowy zasobu języka.
Scenariusze
Użyj wykrywania pii dla kilku aplikacji, w tym:
- Etykiety poufności: kategoryzuj dokumenty lub wiadomości e-mail według poufności zgodnie z typami danych piI. Tekst zawierający numery telefonów może być oznaczony jako poufny, natomiast numery kart kredytowych lub kont bankowych zostałyby oznaczone jako wysoce tajne.
- Redaction for support and operations: Wiele zadań operacyjnych, takich jak klasyfikacja zdarzeń lub routing pomocy technicznej, nie wymaga informacji osobistych. Firmy mogą używać redaction PII do filtrowania informacji o klientach, które są niepotrzebne do zadania pracownika.
- Zmniejszenie informacji osobistych w celu zmniejszenia nieświadomej stronniczości: firma może usunąć nazwiska, adresy i inne informacje, aby pomóc złagodzić nieświadomą płeć lub inne uprzedzenia.
Wykrywanie danych pii w usłudze SQL przy użyciu usług Azure Cognitive Services
Rozszerzenie azure_ai serwera elastycznego usługi Azure Database for PostgreSQL udostępnia funkcje zdefiniowane przez użytkownika (UDF) umożliwiające bezpośredni dostęp do funkcji sztucznej inteligencji z poziomu programu SQL. Dostęp do interfejsu API wykrywania danych pii jest uzyskiwany za pomocą funkcji udostępnionej przez azure_ai
usługę azure_cognitive.recognize_pii_entities
:
azure_cognitive.recognize_pii_entities(
text text,
language text,
timeout_ms integer DEFAULT 3600000,
throw_on_error boolean DEFAULT true,
domain text DEFAULT 'none'::text,
disable_service_logs boolean DEFAULT false
)
Wymagane parametry to text
, dane wejściowe i language
, język, w którym jest zapisywany text
. Na przykład en-us
jest to angielski USA i fr
francuski. Zobacz Obsługa języków, aby uzyskać pełną listę dostępnych języków.
Domyślnie rozpoznawanie jednostek jest zatrzymywane, jeśli nie kończy się na 3600 000 ms = 1 godzinę. To opóźnienie można dostosować, zmieniając zmienną timeout_ms
.
Jeśli wystąpi błąd, domyślnym zachowaniem jest zgłoszenie wyjątku, co spowoduje wycofanie transakcji. To zachowanie można wyłączyć, ustawiając wartość throw_on_error
false.
Parametr domain
może służyć do dostosowywania rodzaju zidentyfikowanych danych osobowych. Obecnie wartość domyślna none
używa ogólnych danych osobowych, a domena identyfikuje informacje o kondycji phi
osobistej.
Aby uzyskać pełną dokumentację parametrów, zobacz dokumentację rozszerzenia usług Azure Cognitive Services.
Na przykład wywołanie tego zapytania:
SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');
Daje ten wynik:
("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")
Usługa PII wykryła numer telefonu z współczynnikiem ufności 0,8 i adresem z współczynnikiem ufności 1. Zwróciła również dane wejściowe z dwoma punktami danych piI zredagowanymi.
Możesz użyć kolumn tabeli dla tekstu wejściowego:
SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;
Które zwraca wartość (z włączoną obsługą \x
wyświetlania rozszerzonego):
recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")
Podsumowanie
Wykrywanie danych osobowych identyfikuje i kategoryzuje dane osobowe w tekście wejściowym bez struktury. Model językowy usług Azure Cognitive Services wykonuje duże obciążenie, a azure_ai
rozszerzenie usługi Azure Database for PostgreSQL udostępnia azure_cognitive.recognize_pii_entities
interfejs API do wykrywania i redact PII bezpośrednio w zapytaniach SQL.