Como detectar e redigir PIIs (informações de identificação pessoal)
O recurso de PII pode avaliar textos não estruturados, extrair e editar PIIs (informações confidenciais) e PHIs (informações de integridade) em textos de várias categorias predefinidas.
Opções de desenvolvimento
Para usar a detecção de PII, você envia um texto para análise e identifica a saída da API no seu aplicativo. A análise é realizada no estado em que se encontra, sem nenhuma personalização para o modelo usado nos seus dados. Há duas maneiras de usar a detecção de PII:
Opção de desenvolvimento | Descrição |
---|---|
Language Studio | O Language Studio é uma plataforma baseada na Web que permite que você experimente a vinculação de entidade com exemplos de texto sem uma conta do Azure, e seus próprios dados quando você se inscreve. Para obter mais informações, confira o site do Language Studio ou o início rápido do Language Studio. |
API REST ou biblioteca de clientes (SDK do Azure) | Integre a detecção de PII aos seus aplicativos usando a API REST, ou a biblioteca de clientes disponível em diversos idiomas. Para saber mais, confira o guia de início rápido da detecção de PII. |
Determinar como processar os dados (opcional)
Especificar o modelo de detecção de PII
Por padrão, o recurso usará o modelo de IA mais recente disponível no texto. Você também pode configurar suas solicitações de API para usar uma versão de modelo específica.
Idiomas de entrada
Ao enviar documentos para serem processados, você pode especificar em qual dos idiomas com suporte eles serão escritos. Se não especificar um idioma, a extração padrão será em inglês. A API pode retornar deslocamentos na resposta para dar suporte a diferentes codificações de emojis e vários idiomas.
Política de Redação (somente versão 2024-11-5-preview)
na versão 2024-11-5-preview, você pode definir o parâmetro redactionPolicy
para refletir a política de redação a ser usada ao redigir o documento na resposta. O campo de política dá suporte a três tipos de política:
DoNotRedact
MaskWithCharacter
(padrão)MaskWithEntityType
A política DoNotRedact
permite que o usuário retorne a resposta sem o campo redactedText
.
A política MaskWithRedactionCharacter
permite que o redactedText
seja mascarado com um caractere, preservando o comprimento e o deslocamento do texto original. Esse é o comportamento existente.
Há também um campo opcional chamado redactionCharacter
em que você pode inserir o caractere a ser usado na redação se estiver usando a política MaskWithCharacter
A política MaskWithEntityType
permite mascarar o texto da entidade de PII detectada com o tipo de entidade detectada.
Enviando dados
A análise é executada após o recebimento da solicitação. Usar o recurso de detecção de PIIs de forma síncrona é sem estado. Nenhum dado é armazenado em sua conta e os resultados são retornados imediatamente na resposta.
Ao usar esse recurso de forma assíncrona, os resultados da API ficam disponíveis por 24 horas a partir do momento em que a solicitação foi ingerida; isso é indicado na resposta. Após esse período de tempo, os resultados são limpos e não estão mais disponíveis para recuperação.
Selecione quais entidades serão retornadas
A API tentará detectar as categorias de entidade definidas para um determinado idioma de documento. Se você quiser especificar quais entidades são detectadas e retornadas, use o parâmetro piiCategories
opcional com as categorias de entidade apropriadas. Esse parâmetro também pode permitir que você detecte entidades que não estão habilitadas por padrão para o idioma do documento. O exemplo a seguir detectaria apenas Person
. Você pode especificar um ou mais tipos de entidade a serem retornados.
Dica
Se não incluir default
ao especificar categorias de entidade, a API retornará apenas as categorias de entidade especificadas.
Entrada:
Observação
Neste exemplo, ela retorna apenas o tipo de entidade person:
https://<your-language-resource-endpoint>/language/:analyze-text?api-version=2022-05-01
{
"kind": "PiiEntityRecognition",
"parameters":
{
"modelVersion": "latest",
"piiCategories" :
[
"Person"
]
},
"analysisInput":
{
"documents":
[
{
"id":"1",
"language": "en",
"text": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is John Doe) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!"
}
]
},
"kind": "PiiEntityRecognition",
"parameters": {
"redactionPolicy": {
"policyKind": "MaskWithCharacter"
//MaskWithCharacter|MaskWithEntityType|DoNotRedact
"redactionCharacter": "*"
}
Saída:
{
"kind": "PiiEntityRecognitionResults",
"results": {
"documents": [
{
"redactedText": "We went to Contoso foodplace located at downtown Seattle last week for a dinner party, and we adore the spot! They provide marvelous food and they have a great menu. The chief cook happens to be the owner (I think his name is ********) and he is super nice, coming out of the kitchen and greeted us all. We enjoyed very much dining in the place! The pasta I ordered was tender and juicy, and the place was impeccably clean. You can even pre-order from their online menu at www.contosofoodplace.com, call 112-555-0176 or send email to order@contosofoodplace.com! The only complaint I have is the food didn't come fast enough. Overall I highly recommend it!",
"id": "1",
"entities": [
{
"text": "John Doe",
"category": "Person",
"offset": 226,
"length": 8,
"confidenceScore": 0.98
}
],
"warnings": []
}
],
"errors": [],
"modelVersion": "2021-01-15"
}
}
Obtendo resultados de PII
Quando você recebe os resultados da detecção de PII, pode transmiti-los a um aplicativo ou salvar a saída em um arquivo no sistema local. A resposta à API inclui entidades reconhecidas, incluindo suas categorias e subcategorias e pontuações de confiança. A cadeia de texto com as entidades de PII redigidas também é retornada.
Limites de dados e serviços
Para obter informações sobre o tamanho e o número de solicitações que você pode enviar por minuto e segundo, confira o artigo Limites de serviços.