Reconocimiento de entidades de información de identificación personal (PII)
La detección de PII (información de identificación personal) es una característica que ofrece Lenguaje de Azure AI. Identifica, clasifica y redacta información de identificación personal (PII) en texto no estructurado. La PII incluye direcciones de correo electrónico, números de teléfono, información de pago, etc.
Hay varias maneras de llamar a la API de detección de PII. Aquí, usará la extensión azure_ai
para procesar la PII desde el texto de las consultas SQL.
Requisitos previos
Necesita un servidor flexible de Azure Database for PostgreSQL, con la extensión azure_ai
habilitada y configurada. También debe autorizarlo con Azure Cognitive Services estableciendo la clave y el punto de conexión de un recurso de lenguaje.
Escenarios
Use la detección de PII para varias aplicaciones, entre las que se incluyen:
- Etiquetas de confidencialidad: Clasifique documentos o correos electrónicos por confidencialidad según los tipos de PII. El texto que contiene números de teléfono podría marcarse como confidencial, mientras que los números de la tarjeta de crédito o de la cuenta bancaria se etiquetarían como extremadamente secretos.
- Redacción para soporte técnico y operaciones: Muchas tareas operativas, como la evaluación de prioridades de incidentes o el enrutamiento de soporte técnico, no requieren información personal. Las empresas pueden usar la redacción de PII para filtrar la información del cliente que no es necesaria para la tarea de un empleado.
- Reducir la información personal para reducir el sesgo inconsciente: Una empresa podría eliminar nombres, direcciones y otros datos para ayudar a mitigar prejuicios inconscientes de género o de otro tipo.
Detección de PII en SQL con Azure Cognitive Services
La extensión azure_ai del servidor flexible de Azure Database for PostgreSQL proporciona funciones definidas por el usuario (UDF) para acceder a las funcionalidades de inteligencia artificial desde SQL directamente. Se accede a la API de detección de PII con la función azure_cognitive.recognize_pii_entities
proporcionada por azure_ai
:
azure_cognitive.recognize_pii_entities(
text text,
language text,
timeout_ms integer DEFAULT 3600000,
throw_on_error boolean DEFAULT true,
domain text DEFAULT 'none'::text,
disable_service_logs boolean DEFAULT false
)
Los parámetros necesarios son text
, la entrada y language
, el idioma en el que está escrito text
. Por ejemplo, en-us
es inglés de EE. UU. y fr
es francés. Consulte compatibilidad con idiomas para obtener la lista completa de idiomas disponibles.
De forma predeterminada, el reconocimiento de entidades se detiene si no finaliza en 3600 000 ms = 1 hora. Puede personalizar este retraso cambiando timeout_ms
.
Si se produce un error, el comportamiento predeterminado es producir una excepción, lo que da lugar a una reversión de transacciones. Puede deshabilitar este comportamiento estableciendo throw_on_error
en false.
El parámetro domain
se puede usar para personalizar el tipo de datos personales identificados. Actualmente, el none
predeterminado usa PII general y el dominio phi
identifica información de salud personal.
Consulte la documentación de la extensión de Azure Cognitive Services para obtener documentación completa sobre parámetros.
Por ejemplo, invocar esta consulta:
SELECT azure_cognitive.recognize_pii_entities('My phone number is +1555555555, and the address of my office is 16255 NE 36th Way, Redmond, WA 98052.', 'en-us');
Proporciona este resultado:
("My phone number is ***********, and the address of my office is ************************************.","{""(+1555555555,PhoneNumber,\\""\\"",0.8)"",""(\\""16255 NE 36th Way, Redmond, WA 98052\\"",Address,\\""\\"",1)""}")
El servicio de PII detectó el número de teléfono con una puntuación de confianza de 0,8 y la dirección con una puntuación de confianza de 1. También devolvió la entrada con los dos puntos de datos de PII censurados.
Puede usar columnas de tabla para el texto de entrada:
SELECT description, azure_cognitive.recognize_pii_entities(description, 'en-us')
FROM listings LIMIT 1;
Que devuelve (con \x
habilitado para la visualización extendida):
recognize_pii_entities | ("New modern house built in 2013. Spectacular sunset/water views, light, rooftop deck and lounge area, hot tub, 5 bedrooms, gourmet kitchen. Perfect for 2-3 families, walk to downtown. Located in highly desirable Queen Anne neighborhood. Our house is modern, light and fresh with a warm simple palette accented with barnwood, steel and concrete. Open living spaces for entertaining, gourmet kitchen, deck off the kitchen, reading nook, half bath and smaller tv room off kitchen. Fireplace with sofa and sitting area. Basement room is great for ****...this room has patio access and a garage door that opens into the space with basketball hoop right outside. A queen bedroom and full bath are in the basement with concrete heated floors. A queen sleeper sofa is in the tv area in the basement. This room has a door if privacy is needed. Great for a second ****** with ****. The 2nd floor has 4 bedrooms (one queen in master, one twin bedroom, another bedroom has twin bunk beds and the last","{""(kids,PersonType,\\""\\"",0.73)"",""(family,PersonType,\\""\\"",0.71)"",""(kids,PersonType,\\""\\"",0.65)""}")
Resumen
La detección de PII identifica y clasifica la información de identificación personal en texto de entrada no estructurado. El modelo de lenguaje de Azure Cognitive Services realiza el trabajo pesado y la extensión azure_ai
para Azure Database for PostgreSQL proporciona la API de azure_cognitive.recognize_pii_entities
para detectar y censurar PII directamente desde consultas SQL.