Erkennen von PII-Entitäten (Personally Identifiable Information, personenbezogene Informationen)

Abgeschlossen

Die Erkennung personenbezogener Informationen (Personally Identifiable Information, PII) ist ein von Azure KI Language bereitgestelltes Feature. Sie identifiziert, kategorisiert und redigiert personenbezogene Daten (PII) in unstrukturiertem Text. PII umfassen E-Mail-Adressen, Telefonnummern, Zahlungsinformationen usw.

Es gibt mehrere Möglichkeiten, die PII-Erkennungs-API aufzurufen. Hier verwenden Sie die azure_ai-Erweiterung, um PII aus dem Text in SQL-Abfragen zu verarbeiten.

Voraussetzungen

Sie benötigen eine Instanz von Azure Database for PostgreSQL – Flexibler Server mit aktivierter und konfigurierter azure_ai-Erweiterung. Sie müssen die Instanz auch bei Azure Cognitive Services autorisieren, indem Sie den Schlüssel und Endpunkt einer Sprachressource festlegen.

Szenarien

Verwenden der PII-Erkennung für mehrere Anwendungen, einschließlich:

  • Vertraulichkeitsbezeichnungen: Kategorisieren Sie Dokumente oder E-Mails nach Vertraulichkeit entsprechend den verschiedenen Arten personenbezogener Informationen. Texte, die Telefonnummern enthalten, werden möglicherweise als vertraulich gekennzeichnet, Kreditkarten- oder Kontonummern hingegen als streng geheim.
  • Bearbeitung für Support und Betrieb: Viele operative Aufgaben, z. B. Incidentselektierung oder Supportrouting, erfordern keine personenbezogene Informationen. Unternehmen können die PII-Bearbeitung verwenden, um Kundeninformationen zu filtern, die für die Aufgabe eines Mitarbeitenden unnötig sind.
  • Reduzieren Sie persönliche Informationen, um unbewusste Vorurteile zu vermeiden: Ein Unternehmen kann Namen, Adressen und andere Informationen entfernen, um unbewusste geschlechtsspezifische Voreingenommenheiten oder andere Vorurteile zu mindern.

Erkennen von PII in SQL mit Azure Cognitive Services

Die azure_ai-Erweiterung für Azure Database for PostgreSQL – Flexibler Server bietet benutzerdefinierte Funktionen (UDFs), um direkt in SQL auf KI-Funktionen zuzugreifen. Auf die PII-Erkennungs-API wird mit der von azure_ai bereitgestellten azure_cognitive.recognize_pii_entities-Funktion zugegriffen:

azure_cognitive.recognize_pii_entities(
 text text,
 language text,
 timeout_ms integer DEFAULT 3600000,
 throw_on_error boolean DEFAULT true,
 domain text DEFAULT 'none'::text,
 disable_service_logs boolean DEFAULT false
)

Die erforderlichen Parameter sind text, die Eingabe und language, die Sprache, in der text geschrieben ist. Beispielsweise ist en-us US-Englisch und fr Französisch. Siehe Sprachunterstützung für eine vollständige Liste der verfügbaren Sprachen.

Die Entitätserkennung wird standardmäßig beendet, wenn sie nicht in 3.600.000 ms (d. h. 1 Stunde) abgeschlossen ist. Sie können diese Verzögerung anpassen, indem Sie timeout_ms ändern.

Wenn ein Fehler auftritt, besteht das Standardverhalten darin, eine Ausnahme auszulösen, was zu einem Transaktionsrollback führt. Sie können dieses Verhalten deaktivieren, indem Sie throw_on_error auf „false“ festlegen.

Der Parameter domain kann verwendet werden, um die Art der ermittelten personenbezogenen Daten anzupassen. Derzeit verwendet die Standardeinstellung none allgemeine PII, und die Domäne phi identifiziert personenbezogene Gesundheitsdaten.

Eine vollständige Parameterdokumentation finden Sie in der Dokumentation zur Azure Cognitive Services-Erweiterung.

Wenn Sie beispielsweise diese Abfrage aufrufen:

SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');

Erhalten Sie folgendes Ergebnis:

("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")

Der PII-Dienst hat die Telefonnummer mit einer Konfidenzbewertung von 0,8 und die Adresse mit einer Konfidenzbewertung von 1 erkannt. Außerdem wurde die Eingabe mit den beiden unkenntlich gemachten PII-Datenpunkten zurückgegeben.

Sie können Tabellenspalten für den Eingabetext verwenden:

SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;

Dadurch wird Folgendes zurückgegeben (\x ist für die erweiterte Anzeige aktiviert):

recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")

Zusammenfassung

Bei der PII-Erkennung werden personenbezogene Informationen in unstrukturiertem Eingabetext identifiziert und kategorisiert. Das Azure Cognitive Services-Sprachmodell übernimmt den Großteil der Arbeit, und die azure_ai-Erweiterung für Azure Database for PostgreSQL stellt die azure_cognitive.recognize_pii_entities-API bereit, um PII direkt in SQL-Abfragen zu erkennen und unkenntlich zu machen.