¿Qué es la detección de información de identificación personal (DCP) en Lenguaje de Azure AI?
La detección de DCP es una de las características que ofrece Lenguaje de Azure AI, una colección de algoritmos de aprendizaje automático e inteligencia artificial en la nube para el desarrollo de aplicaciones inteligentes en las que interviene lenguaje escrito. La característica de detección de DCP puede identificar, clasificar y censurar información confidencial en texto no estructurado. Por ejemplo: números de teléfono, direcciones de correo electrónico y formularios de identificación. Lenguaje de Azure AI admite la redacción de DCP de texto general, así como de DCP de conversación, un modelo especializado para controlar las transcripciones de voz y el tono más informal de las transcripciones de reuniones y llamadas. El servicio también admite la redacción de DCP de documento nativo, donde la entrada y salida son archivos de documento estructurados.
Novedades
La API de detección de PII de texto y PII conversacional (versión 2024-11-15-preview
) ahora admite la opción de enmascarar las entidades confidenciales detectadas con una etiqueta más allá de simplemente caracteres de reacción. Los clientes tienen la opción de especificar si el contenido de información de identificación personal, como nombres y números de teléfono, es decir, “John Doe received a call from 424-878-9192”
, se enmascaran con un carácter de reacción, es decir, “******** received a call from ************”
o enmascarados con una etiqueta de entidad, es decir, “[PERSON_1] received a call from [PHONENUMBER_1]”
. Puede encontrar más información sobre cómo especificar el estilo de directiva de reacción para las salidas en nuestras guías de procedimientos.
Los modelos de detección de PII conversacional (tanto la versión 2024-11-01-preview
como la GA
) se han actualizado para proporcionar una mayor calidad y precisión de inteligencia artificial. El tipo de entidad de identificador numérico ahora también incluye la licencia de conducir y el Identificador beneficiario de Medicare.
A partir de junio de 2024, ahora se proporciona compatibilidad con disponibilidad general para el servicio DCP de conversación (solo en inglés). Los clientes ahora pueden censurar transcripciones, chats y otro texto escrito en un estilo de conversación (es decir, texto con exclamaciones, varios hablantes y la ortografía de palabras para mayor claridad) con una mejor confianza en la calidad de la inteligencia artificial, el soporte técnico del Acuerdo de Nivel de Servicio de Azure y del entorno de producción de Azure, y la seguridad de nivel empresarial en mente.
Sugerencia
Pruebe la detección de PII en el portal de Azure AI Foundry, donde puede usar un recurso de Language Studio existente actualmente o crear un nuevo recurso de Azure AI Foundry
- Los inicios rápidos son instrucciones de inicio que le guiarán a la hora de hacer solicitudes al servicio.
- Las guías de procedimientos contienen instrucciones para usar el servicio de una manera más específica o personalizada.
- En los artículos conceptuales se proporcionan explicaciones detalladas de la funcionalidad y las características del servicio.
Flujo de trabajo típico
Para usar esta característica, envíe datos para su análisis y controle la salida de la API en la aplicación. El análisis se realiza tal cual, sin ninguna personalización agregada al modelo usado en los datos.
Cree un recurso de Lenguaje de Azure AI que le conceda acceso a las características que ofrece Lenguaje de Azure AI. Genera una contraseña (denominada clave) y una dirección URL de punto de conexión que se usa para autenticar las solicitudes de API.
Utilice la API REST o la biblioteca cliente para C#, Java, JavaScript y Python para crear una solicitud. También puede enviar llamadas asincrónicas con una solicitud por lotes para combinar las solicitudes de API de varias características en una sola llamada.
Envíe la solicitud que contiene los datos de texto. La clave y el punto de conexión se usan para la autenticación.
Transmita la respuesta en secuencias o almacénela localmente.
Compatibilidad con documentos nativos
Un documento nativo hace referencia al formato de archivo usado para crear el documento original, como Microsoft Word (docx) o un archivo de documento portátil (pdf). La compatibilidad con documentos nativos elimina la necesidad de preprocesamiento de texto antes de usar las funcionalidades de recursos de lenguaje de Azure AI. Actualmente, la compatibilidad con documentos nativos está disponible para la funcionalidad PiiEntityRecognition.
Actualmente, PII admite los siguientes formatos de documento nativos:
Tipo de archivo | Extensión de archivo | Descripción |
---|---|---|
Texto | .txt |
Documento de texto sin formato |
PDF de Adobe | .pdf |
Un documento portátil con formato de archivo de documento. |
Microsoft Word | .docx |
Un archivo de documento de Microsoft Word. |
Para obtener más información, consulte Uso de documentos nativos para el procesamiento de lenguaje
Introducción a la detección de PII
Para usar la detección de información de identificación personal (PII), debe enviar texto para su análisis y controlar la salida de la API en la aplicación. El análisis se realiza tal cual, sin personalización adicional al modelo usado en los datos. Hay dos maneras de usar la detección de PII:
Opción de desarrollo | Descripción |
---|---|
Language Studio | Language Studio es una plataforma basada en la web que le permitirá probar la vinculación de entidades con ejemplos de texto sin tener cuentas de Azure y usando sus propios datos al registrarse. Para obtener más información, consulte el sitio web de Language Studio o la guía de inicio rápido de Language Studio. |
API REST o biblioteca cliente (SDK de Azure) | Integre la detección de PII en las aplicaciones mediante la API REST o la biblioteca cliente disponible en una variedad de lenguajes. Para más información, consulte el inicio rápido de detección de PII. |
Documentación de referencia y ejemplos de código
Al usar esta característica en las aplicaciones, consulte la siguiente documentación de referencia y ejemplos de Lenguaje de Azure AI:
Idioma u opción de desarrollo | Documentación de referencia | Ejemplos |
---|---|---|
API DE REST | Documentación de la API REST | |
C# | Documentación de C# | Ejemplos de C# |
Java | Documentación de Java | Ejemplos de Java |
JavaScript | Documentación de JavaScript | Ejemplos de JavaScript |
Python | Documentación de Python | Ejemplos de Python |
Inteligencia artificial responsable
Los sistemas de inteligencia artificial no solo incluyen la tecnología, sino también las personas que la usan, las que se ven afectadas por ella y el entorno en el que se implementan. Lea la nota de transparencia sobre DCP para obtener información sobre el uso responsable de la inteligencia artificial y la implementación en los sistemas. Para más información, consulte los siguientes artículos.
- Nota sobre transparencia para Lenguaje de Azure AI
- Integración y uso responsable
- Datos, privacidad y seguridad
Escenarios de ejemplo
- Aplicar etiquetas de confidencialidad: por ejemplo, en función de los resultados del servicio de detección de DCP, se puede aplicar una etiqueta de confidencialidad pública a los documentos en los que no se detecta ninguna entidad de DCP. En el caso de los documentos en los que se reconocen las direcciones y los números de teléfono de Estados Unidos, se podría aplicar una etiqueta de confidencialidad. Se pude usar una etiqueta de alta confidencialidad para los documentos en los que se reconocen números de ruta bancarios.
- Censurar algunas categorías de información personal de los documentos con una circulación más amplia: por ejemplo, si los registros de contacto del cliente son accesibles para los representantes de soporte de primera línea, la empresa puede censurar la información personal del cliente además de su nombre en la versión del historial de clientes para preservar la privacidad del cliente.
- Censurar información personal para reducir el sesgo inconsciente: por ejemplo, durante el proceso de revisión de currículos en una empresa, se puede bloquear el nombre, la dirección y el número de teléfono para reducir el sesgo inconsciente que provocan factores como el género, etc.
- Reemplazar la información personal en los datos de origen para que el aprendizaje automático reduzca la inequidad: por ejemplo, si desea quitar nombres que podrían revelar el sexo al entrenar un modelo de aprendizaje automático, puede usar el servicio para identificarlos y reemplazarlos por marcadores de posición genéricos para el entrenamiento del modelo.
- Quitar información personal de las transcripciones del centro de llamadas: por ejemplo, si desea quitar nombres u otros DCP que puedan mencionar el agente y el cliente en un escenario de centro de llamadas. Puede usar el servicio para identificarlos y quitarlos.
- Limpieza de datos para la ciencia de datos: la detección de DCP se puede usar con el fin de preparar los datos para que los ingenieros y científicos de datos puedan usarlos en el entrenamiento de modelos de aprendizaje automático. Se trata de censurar los datos para asegurarse de que los datos del cliente no resulten expuestos.
Pasos siguientes
Hay dos maneras de empezar a usar la característica de vinculación de entidades:
- Language Studio, una plataforma basada en web que permite probar varias características del servicio Lenguaje sin necesidad de escribir código.
- El artículo de inicio rápido para obtener instrucciones sobre cómo realizar solicitudes al servicio mediante la API de REST y el SDK de la biblioteca cliente.