Erkennen und Redigieren von personenbezogenen Informationen (Personally Identifying Information, PII)
Das Feature für personenbezogene Informationen kann unstrukturierten Text auswerten und redigieren, vertrauliche Informationen (PII) und Integritätsinformationen (Health Information, PHI) aus Texten in mehreren vordefinierten Kategorien extrahieren.
Entwicklungsoptionen
Zur Verwendung der Erkennung personenbezogener Informationen übermitteln Sie Text zur Analyse und verarbeiten die API-Ausgabe in Ihrer Anwendung. Die Analyse wird ohne Anpassung des Modells durchgeführt, das für Ihre Daten verwendet wird. Es gibt zwei Möglichkeiten, die Erkennung personenbezogener Informationen zu nutzen:
Entwicklungsoption | BESCHREIBUNG |
---|---|
Language Studio | Language Studio ist eine webbasierte Plattform, mit der Sie ohne Azure-Konto und mit Ihren eigenen Daten die Verknüpfung von Entitäten mit Textbeispielen ausprobieren können, wenn Sie sich registrieren. Weitere Informationen finden Sie auf der Language Studio-Website oder im Language Studio-Schnellstart. |
REST-API oder Clientbibliothek (Azure SDK) | Integrieren Sie die Erkennung personenbezogener Informationen mithilfe der REST-API oder der Clientbibliothek, die in zahlreichen Sprachen verfügbar ist, in Ihre Anwendungen. Weitere Informationen finden Sie im Schnellstart zur PII-Erkennung. |
Festlegen der Art der Datenverarbeitung (optional)
Angeben des PII-Erkennungsmodells
Standardmäßig wendet dieses Feature das neueste verfügbare KI-Modell für Ihren Text an. Sie können Ihre API-Anforderungen auch für die Verwendung einer bestimmten Modellversion konfigurieren.
Eingabesprachen
Bei der Übermittlung von zu verarbeitenden Dokumenten können Sie angeben, in welcher der unterstützten Sprachen die Dokumente geschrieben werden. Wenn Sie keine Sprache angeben, verwendet die Extraktion standardmäßig Englisch. Die API gibt möglicherweise Offsets in der Antwort zurück, um verschiedene mehrsprachige und Emoji-Codierungen zu unterstützen.
Maskierungsrichtlinie (nur Version 2024-11-5-preview)
Bei der Version 2024-11-5-preview können Sie den redactionPolicy
-Parameter definieren, um die Maskierungsrichtlinie widerzuspiegeln, die bei der Maskierung des Dokuments in der Antwort verwendet werden soll. Das Richtlinienfeld unterstützt drei Richtlinientypen:
DoNotRedact
MaskWithCharacter
(Standard)MaskWithEntityType
Mit der DoNotRedact
-Richtlinie kann der Benutzer die Antwort ohne das Feld redactedText
zurückgeben.
Mit der MaskWithRedactionCharacter
-Richtlinie kann redactedText
mit einem Zeichen maskiert werden, wobei die Länge und das Offset des ursprünglichen Texts beibehalten werden. Dies ist das vorhandene Verhalten.
Es gibt auch ein optionales Feld namens redactionCharacter
, in dem Sie das Zeichen eingeben können, das für die Maskierung verwendet werden soll, wenn Sie die MaskWithCharacter
-Richtlinie verwenden
Mit der MaskWithEntityType
-Richtlinie können Sie den erkannten Text der PII-Entität mit dem erkannten Entitätstyp maskieren.
Übermitteln der Daten
Die Analyse erfolgt, wenn die Anforderung eingeht. Die synchrone Verwendung des PII-Erkennungsfeatures ist zustandslos. Auf Ihrem Konto werden keine Daten gespeichert, und die Ergebnisse werden sofort in der Antwort zurückgegeben.
Wenn Sie dieses Feature asynchron verwenden, sind die API-Ergebnisse ab der Erfassung der Anforderung wie in der Antwort angegeben 24 Stunden lang verfügbar. Nach diesem Zeitraum werden die Ergebnisse endgültig gelöscht und stehen nicht mehr zum Abruf zur Verfügung.
Auswählen der zurückzugebenden Entitäten
Die API versucht, die definierten Entitätskategorien für eine bestimmte Dokumentsprache zu erkennen. Wenn Sie angeben möchten, welche Entitäten erkannt und zurückgegeben werden sollen, verwenden Sie den optionalen Parameter piiCategories
mit den entsprechenden Entitätskategorien. Mit diesem Parameter lassen sich auch Entitäten erkennen, die für Ihre Dokumentsprache standardmäßig nicht aktiviert sind. Das folgende Beispiel würde nur Person
erkennen. Sie können einen oder mehrere Entitätstypen für die Rückgabe angeben.
Tipp
Wenn Sie beim Angeben von Entitätskategorien default
nicht angeben, gibt die API nur die von Ihnen angegebenen Entitätskategorien zurück.
Eingabe:
Hinweis
In diesem Beispiel wird nur der Entitätstyp Person zurückgegeben:
https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01
{
"kind": "PiiEntityRecognition",
"parameters":
{
"modelVersion": "latest",
"piiCategories" :
[
"Person"
]
},
"analysisInput":
{
"documents":
[
{
"id":"1",
"language": "en",
"text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
}
]
},
"kind": "PiiEntityRecognition",
"parameters": {
"redactionPolicy": {
"policyKind": "MaskWithCharacter"
//MaskWithCharacter|MaskWithEntityType|DoNotRedact
"redactionCharacter": "*"
}
Ausgabe:
{
"kind": "PiiEntityRecognitionResults",
"results": {
"documents": [
{
"redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
"id": "1",
"entities": [
{
"text": "John Doe",
"category": "Person",
"offset": 226,
"length": 8,
"confidenceScore": 0.98
}
],
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-15"
}
}
Abrufen von PII-Ergebnissen
Wenn Sie Ergebnisse von der PII-Erkennung erhalten, können Sie diese an eine App streamen oder die Ausgabe in einer Datei im lokalen System speichern. Die API-Antwort enthält erkannte Entitäten, einschließlich ihrer Kategorien und Unterkategorien sowie Konfidenzbewertungen. Die Textzeichenfolge mit den maskierten PII-Entitäten wird ebenfalls zurückgegeben.
Grenzwerte für Dienste und Daten
Informationen zur Größe und Anzahl der Anforderungen, die Sie pro Minute und pro Sekunde senden können, finden Sie im Artikel Diensteinschränkungen.