Como detetar e redigir informações de identificação pessoal (PII)
O recurso PII pode avaliar texto não estruturado, extrair e redigir informações confidenciais (PII) e informações de saúde (PHI) em texto em várias categorias predefinidas.
Opções de desenvolvimento
Para usar a deteção de PII, envie texto para análise e manipule a saída da API em seu aplicativo. A análise é realizada no estado em que se encontra, sem personalização para o modelo usado em seus dados. Há duas maneiras de usar a deteção de PII:
Opção de desenvolvimento | Description |
---|---|
Estúdio de linguagem | O Language Studio é uma plataforma baseada na Web que permite que você tente vincular entidades com exemplos de texto sem uma conta do Azure e seus próprios dados quando você se inscreve. Para obter mais informações, consulte o site do Language Studio ou o início rápido do language studio. |
API REST ou biblioteca de cliente (SDK do Azure) | Integre a deteção de PII em seus aplicativos usando a API REST ou a biblioteca de cliente disponível em vários idiomas. Para obter mais informações, consulte o Guia de início rápido de deteção de PII. |
Determinar como processar os dados (opcional)
Especificar o modelo de deteção de PII
Por padrão, esse recurso usa o modelo de IA mais recente disponível em seu texto. Você também pode configurar suas solicitações de API para usar uma versão de modelo específica.
Línguas de entrada
Ao enviar documentos para serem processados, você pode especificar em quais dos idiomas suportados eles estão escritos. se você não especificar um idioma, o padrão de extração será o inglês. A API pode retornar deslocamentos na resposta para suportar diferentes codificações multilíngues e emojis.
Política de Redação (somente versão 2024-11-5-preview )
Na versão 2024-11-5-preview, você pode definir o redactionPolicy
parâmetro para refletir a política de redação a ser usada ao redigir o documento na resposta. O campo de política suporta 3 tipos de políticas:
DoNotRedact
MaskWithCharacter
(padrão)MaskWithEntityType
A DoNotRedact
política permite que o usuário retorne a resposta sem o redactedText
campo.
A MaskWithRedactionCharacter
política permite que o redactedText
personagem seja mascarado, preservando o comprimento e o deslocamento do texto original. Este é o comportamento existente.
Há também um campo opcional chamado redactionCharacter
onde você pode inserir o caractere a ser usado na redação se estiver usando a MaskWithCharacter
política
A MaskWithEntityType
política permite mascarar o texto da entidade PII detetada com o tipo de entidade detetada.
Envio de dados
A análise é realizada aquando da receção do pedido. O uso do recurso de deteção de PII de forma síncrona é sem monitoração de estado. Nenhum dado é armazenado em sua conta e os resultados são retornados imediatamente na resposta.
Ao usar esse recurso de forma assíncrona, os resultados da API ficam disponíveis por 24 horas a partir do momento em que a solicitação foi ingerida e são indicados na resposta. Após esse período de tempo, os resultados são limpos e não estão mais disponíveis para recuperação.
Selecionar quais entidades serão retornadas
A API tenta detetar as categorias de entidade definidas para um determinado idioma de documento. Se desejar especificar quais entidades serão detetadas e retornadas, use o parâmetro opcional piiCategories
com as categorias de entidades apropriadas. Esse parâmetro também pode permitir que você detete entidades que não estão habilitadas por padrão para o idioma do documento. O exemplo a seguir detetaria apenas Person
. Você pode especificar um ou mais tipos de entidade a serem retornados.
Gorjeta
Se você não incluir default
ao especificar categorias de entidade, a API retornará apenas as categorias de entidade especificadas.
Entrada:
Nota
Neste exemplo, ele retorna apenas o tipo de entidade pessoa :
https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01
{
"kind": "PiiEntityRecognition",
"parameters":
{
"modelVersion": "latest",
"piiCategories" :
[
"Person"
]
},
"analysisInput":
{
"documents":
[
{
"id":"1",
"language": "en",
"text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
}
]
},
"kind": "PiiEntityRecognition",
"parameters": {
"redactionPolicy": {
"policyKind": "MaskWithCharacter"
//MaskWithCharacter|MaskWithEntityType|DoNotRedact
"redactionCharacter": "*"
}
Saída:
{
"kind": "PiiEntityRecognitionResults",
"results": {
"documents": [
{
"redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
"id": "1",
"entities": [
{
"text": "John Doe",
"category": "Person",
"offset": 226,
"length": 8,
"confidenceScore": 0.98
}
],
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-15"
}
}
Obtendo resultados de PII
Quando você obtém resultados da deteção de PII, pode transmitir os resultados para um aplicativo ou salvar a saída em um arquivo no sistema local. A resposta da API inclui entidades reconhecidas, incluindo suas categorias e subcategorias, e pontuações de confiança. A cadeia de caracteres de texto com as entidades PII editadas também é retornada.
Limites de serviço e dados
Para obter informações sobre o tamanho e o número de solicitações que você pode enviar por minuto e segundo, consulte o artigo Limites de serviço.