Reconhecer entidades de informações de identificação pessoal (PII)
A deteção de PII (informações de identificação pessoal) é um recurso oferecido pelo Azure AI Language. Ele identifica, categoriza e redige informações de identificação pessoal (PII) em texto não estruturado. PII inclui endereços de e-mail, números de telefone, informações de pagamento, etc.
Há várias maneiras de chamar a API de deteção de PII. Aqui, você usa a azure_ai
extensão para processar PII do texto em consultas SQL.
Pré-requisitos
Você precisa de um servidor flexível do Banco de Dados do Azure para PostgreSQL, com a extensão habilitada azure_ai
e configurada. Você também precisa autorizá-lo com os Serviços Cognitivos do Azure definindo a chave e o ponto de extremidade de um recurso de idioma.
Cenários
Use a deteção de PII para várias aplicações, incluindo:
- Etiquetas de sensibilidade: categorize documentos ou e-mails por sensibilidade de acordo com os tipos de PII. Textos contendo números de telefone podem ser marcados como confidenciais, enquanto os números de cartão de crédito ou conta bancária seriam rotulados como altamente secretos.
- Redação para suporte e operações: Muitas tarefas operacionais, como triagem de incidentes ou roteamento de suporte, não exigem informações pessoais. As empresas podem usar a redação de PII para filtrar informações de clientes que são desnecessárias para a tarefa de um funcionário.
- Reduzir informações pessoais para reduzir preconceitos inconscientes: uma empresa pode remover nomes, endereços e outras informações para ajudar a mitigar preconceitos inconscientes de gênero ou outros.
Detetando PII no SQL com os Serviços Cognitivos do Azure
A extensão de azure_ai flexível de servidor do Banco de Dados do Azure para PostgreSQL fornece funções definidas pelo usuário (UDFs) para acessar recursos de IA diretamente de dentro do SQL. A API de deteção de PII é acessada com a azure_cognitive.recognize_pii_entities
função fornecida por azure_ai
:
azure_cognitive.recognize_pii_entities(
text text,
language text,
timeout_ms integer DEFAULT 3600000,
throw_on_error boolean DEFAULT true,
domain text DEFAULT 'none'::text,
disable_service_logs boolean DEFAULT false
)
Os parâmetros necessários são text
, a entrada e language
, o idioma em que o text
está escrito. Por exemplo, en-us
é inglês dos EUA e fr
é francês. Consulte o suporte a idiomas para obter a lista completa de idiomas disponíveis.
Por padrão, o reconhecimento da entidade é interrompido se não terminar em 3.600.000 ms = 1 hora. Você pode personalizar esse atraso alterando timeout_ms
o .
Se ocorrer um erro, o comportamento padrão é lançar uma exceção, resultando em uma reversão de transação. Você pode desabilitar esse comportamento definindo throw_on_error
como false.
O domain
parâmetro pode ser usado para personalizar o tipo de dados pessoais identificados. Atualmente, o padrão none
usa PII geral e o domínio phi
identifica Informações Pessoais de Saúde.
Consulte a documentação da extensão dos Serviços Cognitivos do Azure para obter a documentação completa dos parâmetros.
Por exemplo, invocando esta consulta:
SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');
Dá este resultado:
("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")
O serviço PII detetou o número de telefone com uma pontuação de confiança de 0,8 e o endereço com uma pontuação de confiança de 1. Ele também retornou a entrada com os dois pontos de dados PII editados.
Você pode usar colunas de tabela para o texto de entrada:
SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;
Que retorna (com \x
ativado para exibição estendida):
recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")
Resumo
A deteção de PII identifica e categoriza informações pessoalmente identificáveis em texto de entrada não estruturado. O modelo de linguagem dos Serviços Cognitivos do Azure faz o trabalho pesado e a azure_ai
extensão do Banco de Dados do Azure para PostgreSQL fornece a azure_cognitive.recognize_pii_entities
API para detetar & redact PII diretamente em consultas SQL.