Reconhecer entidades de PII (informações de identificação pessoal)
A detecção de PII (informações de identificação pessoal) é um recurso oferecido pela Linguagem de IA do Azure. Ela identifica, categoriza e edita informações de identificação pessoal (PII) em textos não estruturados. A PII inclui endereços de email, números de telefone, informações de pagamento etc.
Há várias maneiras de chamar a API de detecção de PII. Aqui, você usa a extensão azure_ai
para processar a PII do texto em consultas SQL.
Pré-requisitos
Você precisará de um servidor flexível do Banco de Dados do Azure para PostgreSQL, com a extensão azure_ai
habilitada e configurada. Você também precisa autorizá-lo com os Serviços Cognitivos do Azure definindo a chave e o ponto de extremidade de um recurso de linguagem.
Cenários
Use a detecção de PII para vários aplicativos, incluindo:
- Rótulos de confidencialidade: Categorize documentos ou emails por confidencialidade de acordo com os tipos de PII. O texto que contém números de telefone pode ser marcado como confidencial, enquanto os números de cartão de crédito ou de conta bancária seriam rotulados como altamente secretos.
- Edição para suporte e operações: Muitas tarefas operacionais, como triagem de incidentes ou roteamento de suporte, não exigem informações pessoais. As empresas podem usar a edição de PII para filtrar informações do cliente desnecessárias para a tarefa de um funcionário.
- Reduza as informações pessoais para reduzir viés inconsciente: Uma empresa pode remover nomes, endereços e outras informações para ajudar a atenuar viés de gênero ou outros viés inconscientes.
Detectar PII no SQL com os Serviços Cognitivos do Azure
A extensão azure_ai do servidor flexível do Banco de Dados do Azure para PostgreSQL fornece UDFs (funções definidas pelo usuário) para acessar funcionalidades de IA diretamente no SQL. A API de detecção de PII é acessada com a função azure_cognitive.recognize_pii_entities
fornecida por azure_ai
:
azure_cognitive.recognize_pii_entities(
text text,
language text,
timeout_ms integer DEFAULT 3600000,
throw_on_error boolean DEFAULT true,
domain text DEFAULT 'none'::text,
disable_service_logs boolean DEFAULT false
)
Os parâmetros necessários são text
, a entrada, e language
, o idioma no qual o text
é escrito. Por exemplo, en-us
é inglês dos EUA e fr
é francês. Consulte o suporte a idiomas para obter a lista completa de idiomas disponíveis.
Por padrão, o reconhecimento de entidade será interrompido se ele não terminar em 3.600.000 ms = 1 hora. Você pode personalizar esse atraso alterando timeout_ms
.
Se ocorrer um erro, o comportamento padrão será gerar uma exceção, resultando em uma reversão de transação. Você pode desabilitar esse comportamento definindo throw_on_error
como false.
O parâmetro domain
pode ser usado para personalizar o tipo de dados pessoais identificados. Atualmente, o padrão none
usa PII gerais e o domínio phi
identifica informações de saúde pessoal.
Consulte a documentação de extensão dos Serviços Cognitivos do Azure para obter a documentação completa do parâmetro.
Por exemplo, invocando esta consulta:
SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');
Fornece este resultado:
("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")
O serviço de PII detectou o número de telefone com uma pontuação de confiança de 0,8 e o endereço com uma pontuação de confiança de 1. Ele também retornou a entrada com os dois pontos de dados de PII editados.
Você pode usar colunas de tabela para o texto de entrada:
SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;
Que retorna (com \x
habilitado para exibição estendida):
recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")
Resumo
A detecção de PII identifica e categoriza informações de identificação pessoal em textos de entrada não estruturados. O modelo de linguagem dos Serviços Cognitivos do Azure faz o trabalho pesado e a extensão azure_ai
do Banco de Dados do Azure para PostgreSQL fornece a API azure_cognitive.recognize_pii_entities
para detectar e editar PII diretamente em consultas SQL.