Rozpoznávání identifikovatelných osobních údajů (PII) entit
Detekce piI (identifikovatelných osobních údajů) je funkce nabízená jazykem Azure AI. Identifikuje, kategorizuje a rediguje identifikovatelné osobní údaje (PII) v nestrukturovaném textu. PII zahrnuje e-mailové adresy, telefonní čísla, platební údaje atd.
Existuje několik způsobů, jak volat rozhraní API pro detekci PII. V této části azure_ai
použijete rozšíření ke zpracování PII z textu v dotazech SQL.
Požadavky
Potřebujete flexibilní server Azure Database for PostgreSQL s povoleným azure_ai
a nakonfigurovaným rozšířením. Musíte ho také autorizovat ve službě Azure Cognitive Services nastavením klíče a koncového bodu prostředku jazyka.
Scénáře
Detekce PII se používá pro několik aplikací, mezi které patří:
- Popisky citlivosti: Kategorizovat dokumenty nebo e-maily podle citlivosti podle typů PII. Text obsahující telefonní čísla může být označený jako důvěrný, zatímco čísla platebních karet nebo bankovních účtů by byla označena jako vysoce tajná.
- Redaction for support and operations: Many operational tasks, such as incident triage or support routing, don't require personal information. Společnosti můžou pomocí redakce PII filtrovat informace zákazníků, které pro úkol zaměstnance není nutné.
- Omezte osobní údaje tak, aby se snížila nevědomá předsudky: Společnost by mohla odebrat jména, adresy a další informace, které by pomohly zmírnit nevědomé pohlaví nebo jiné předsudky.
Detekce PII v SQL s využitím Azure Cognitive Services
Flexibilní server Azure Database for PostgreSQL azure_ai rozšíření poskytuje uživatelem definované funkce (UDF) pro přímý přístup k funkcím AI z SQL. K rozhraní API pro rozpoznávání PII se přistupuje pomocí azure_cognitive.recognize_pii_entities
funkce poskytované azure_ai
:
azure_cognitive.recognize_pii_entities(
text text,
language text,
timeout_ms integer DEFAULT 3600000,
throw_on_error boolean DEFAULT true,
domain text DEFAULT 'none'::text,
disable_service_logs boolean DEFAULT false
)
Požadované parametry jsou text
, vstup a language
jazyk, ve kterém text
je zapsán. Například en-us
angličtina v USA a fr
francouzština. Úplný seznam dostupných jazyků najdete v podpoře jazyků.
Ve výchozím nastavení je rozpoznávání entit zastaveno, pokud se nedokončí do 3 600 000 ms = 1 hodina. Toto zpoždění můžete přizpůsobit změnou timeout_ms
.
Pokud dojde k chybě, výchozí chování je vyvolání výjimky, což vede k vrácení transakce zpět. Toto chování můžete zakázat nastavením throw_on_error
na false.
Parametr domain
lze použít k přizpůsobení druhu identifikovaných osobních údajů. Výchozí nastavení v none
současné době používá obecné PII a doména phi
identifikuje osobní informace o stavu.
Kompletní dokumentaci k parametrům najdete v dokumentaci k rozšíření Azure Cognitive Services.
Například vyvolání tohoto dotazu:
SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');
Vrátí tento výsledek:
("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")
Služba PII zjistila telefonní číslo se skóre spolehlivosti 0,8 a adresou se skóre spolehlivosti 1. Vrátil také vstup se dvěma datovými body PII, které byly upraveny.
Pro vstupní text můžete použít sloupce tabulky:
SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;
Která vrací (s povoleným rozšířeným displejem \x
):
recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")
Shrnutí
Detekce PII identifikuje a kategorizuje identifikovatelné osobní údaje v nestrukturovaném vstupním textu. Jazykový model Azure Cognitive Services provádí náročné kroky a azure_ai
rozšíření pro Azure Database for PostgreSQL poskytuje azure_cognitive.recognize_pii_entities
rozhraní API pro detekci a redact PII přímo v dotazech SQL.