Obtener más información acerca de los tipos de información confidencial
La identificación y clasificación de elementos confidenciales que están bajo el control de su organización es el primer paso en la materia de Information Protection. Microsoft Purview proporciona tres formas de identificar elementos para que se puedan clasificar:
- manualmente, por los usuarios
- a través del reconocimiento automatizado de patrones, como con los tipos de información confidencial
- a través del aprendizaje automático
Los tipos de información confidencial (SIT) son clasificadores basados en patrones. Detectan información confidencial, como el seguro social, la tarjeta de crédito o los números de cuenta bancaria para identificar elementos confidenciales, consulte Definiciones de entidades de tipo de información confidencial para obtener una lista completa de todos los SIT.
Microsoft proporciona un gran número de SIT preconfigurados o puede crear los suyos propios.
Licencias
Se requiere una licencia E5 para usar los SIT de examen de credenciales. Para obtener una lista de todos los SIT de examen de credenciales, consulte Todos los tipos de información confidencial de credenciales. Este SIT contiene todos los SIT de examen de credenciales que están disponibles en el portal de cumplimiento. Cada miembro de esta SIT es un SIT de examen de credenciales y se puede usar como independiente. Para obtener una lista de muchos SIT creados por Microsoft, consulte Definiciones de entidades de tipo de información confidencial.
Sugerencia
Si no es cliente de E5, use la prueba de 90 días de soluciones de Microsoft Purview para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de los datos. Comience ahora en el centro de pruebas de Microsoft Purview. Obtenga más información sobre términos de suscripción y prueba.
Los tipos de información confidencial se usan en
- directivas de Prevención de pérdida de datos de Microsoft Purview
- Etiquetas de confidencialidad
- Etiquetas de retención
- Administración de riesgos internos
- Cumplimiento de las comunicaciones
- Directivas de etiquetado automático
- Microsoft Priva
Categorías de tipos de información confidencial
Tipos de información confidencial integrados
Microsoft creó estos SIT y se muestran en la consola de cumplimiento de forma predeterminada. Estos SIT no se pueden editar, pero puede usarlos como plantillas copiándolos para crear tipos de información confidencial personalizados. Consulte Definiciones de entidades de tipo información confidencial para obtener una lista completa de todos los SIT.
Tipos de información confidencial de entidades con nombre
Los SIT de entidad con nombre también se muestran en la consola de cumplimiento de forma predeterminada. Detectan nombres de personas, direcciones físicas y términos y condiciones médicos. No se pueden editar ni copiar. Para obtener más información, consulte Más información sobre las entidades con nombre.
Los SIT de entidad con nombre se incluyen en dos tipos:
un-bundled
Estos SIT de entidad con nombre tienen un enfoque más estrecho, como un único país o región, o una única clase de términos. Úselas cuando necesite una directiva de prevención de pérdida de datos (DLP) con un ámbito de detección más restringido. Consulte Ejemplos de SIT de entidades con nombre.
Liado
Los SIT de entidad con nombre agrupados detectan todas las coincidencias posibles en una clase, como Todas las direcciones físicas. Úselos como criterios generales en las directivas DLP para detectar elementos confidenciales. Consulte Ejemplos de SIT de entidades con nombre.
Tipos de información confidencial personalizada
Si los tipos de información confidencial preconfigurados no satisfacen sus necesidades, puede crear sus propios tipos de información confidencial personalizados que defina por completo o copiar uno de los integrados y modificarlo. Para obtener más información, vea
Coincidencia exacta de datos con tipos de información confidencial
Todos los SIT basados en coincidencias de datos exactas (EDM) se crean desde cero. Se usan para detectar elementos que tienen valores exactos, que se definen en una base de datos de información confidencial. Para obtener más información, consulte Información sobre los tipos de información confidencial basados en coincidencias exactas de datos.
Partes fundamentales de un tipo de información confidencial
Cada entidad de tipo de información confidencial (SIT) consta de los siguientes campos:
- Nombre: Indica cómo se hace referencia al tipo de información confidencial.
- Descripción: Explicación de lo que busca el tipo de información confidencial.
- Patrón: Define lo que detecta una SIT. Consta de los siguientes componentes: elemento principal, elementos auxiliares, nivel de confianza y proximidad.
En la tabla siguiente se describe cada componente de los patrones utilizados para definir tipos de información confidencial.
Componente de patrón | Descripción |
---|---|
Elemento principal | Elemento principal que busca el tipo de información confidencial. Puede ser una expresión regular con o sin una validación de suma de comprobación, una lista de palabras clave, un diccionario de palabras clave o una función. Cada uno de estos tipos de elementos se puede seleccionar en la lista de SIT existentes o puede ser definido por un usuario con permisos de administrador. Una vez definido un elemento, aparece en la lista de elementos existentes, junto con los que se incluyen integrados. |
Elemento auxiliar | Elemento que actúa como evidencia corroborativa. Cuando se incluyen, los elementos auxiliares ayudan a aumentar el nivel de confianza con respecto a la precisión de las coincidencias detectadas. Por ejemplo, si el elemento principal se define como SSN (compuesto por nueve dígitos) y la palabra clave Número de seguridad social (SSN) se usa como elemento auxiliar cuando se encuentra cerca de SSN , la confianza de que la SSN detectada es realmente un número de Seguridad Social es mayor que si la palabra clave Número de seguridad social (SSN) no está presente. Un elemento auxiliar puede ser una expresión regular (con o sin validación de suma de comprobación), una lista de palabras clave o un diccionario de palabras clave. |
Nivel de confianza | Hay tres niveles de confianza con respecto a las coincidencias detectadas: alta, media y baja. El nivel de confianza refleja la cantidad de pruebas auxiliares que se detectan junto con el elemento principal. Cuantos más pruebas auxiliares contenga un elemento detectado, mayor será la confianza en que un elemento coincidente contiene la información confidencial que está buscando. Para obtener más información sobre los niveles de confianza, vea el vídeo que se incluye más adelante en este artículo. |
Proximidad | Especifica la proximidad de un elemento auxiliar a un elemento principal, en términos del número de caracteres entre ellos. |
Descripción de la proximidad
En el diagrama siguiente se muestra cómo funciona la detección de coincidencias con respecto a la proximidad. En este ejemplo, el elemento principal es el SSN
campo y la definición sit requiere que cada instancia de un SSN
valor esté dentro de una proximidad especificada a al menos uno de los siguientes elementos:
-
AccountNumber
-
Name
DateOfBirth
En el diagrama, vemos que los datos que se comprueban incluyen tres instancias diferentes del SSN
campo: SSN1
, SSN2
, SSN3
y SSN4
.
Para comprender cómo funciona la proximidad, echemos un vistazo a algunos criterios de detección de ejemplo. Aquí, querían detectar números de seguridad social de nueve dígitos. Los criterios de detección requieren que se encuentre una expresión regular de nueve dígitos (elemento principal) junto con pruebas auxiliares (entre los AccountNumber
campos , Name
y DateOfBirth
) que aparezcan dentro de 250 caracteres ( proximidad).
Como se muestra en el diagrama, solo los elementos SSN1
principales y SSN4
cumplen los criterios de detección que se acaban de describir. Vamos a echar un vistazo.
- En el caso de , el
AccountNumber
valor está dentro deSSN1
la ventana de proximidad especificada de 250 caracteres, por lo que se detecta una coincidencia. - En los casos de
SSN2
ySSN3
, ninguno de los elementos auxiliares se produce dentro de los 250 caracteres del elemento principal, por lo que esos valores no se detectan como una coincidencia. Sin embargo, al examinar la ventanaSSN2
de proximidad del diagrama, puede preguntar: ¿Por qué no hay una coincidencia paraSSN2
? ¿La ventana deSSN2
proximidad no se extiende alName
elemento? Esta es una buena pregunta. La respuesta es: No del todo. Aunque la ventana de proximidad se extiende alName
valor, no incluye todo el valor, por lo que el patrón no coincide. - Por último, en el caso de
SSN4
, hay dos elementos auxiliares dentro de la ventana de proximidad, ambosName
yDateOfBirth
, por lo que este patrón también coincide.
Obtenga más información sobre los niveles de confianza en este breve vídeo.
Ejemplo de tipo de información confidencial
Número de identidad nacional (DNI) de Argentina
Formato
Ocho dígitos separados por puntos
Patrón
Ocho dígitos:
- dos dígitos
- un punto
- tres dígitos
- un punto
- tres dígitos
Suma de comprobación
No
Definición
Una directiva DLP tiene confianza media en que ha detectado este tipo de información confidencial si, dentro de una proximidad de 250 caracteres:
- La expresión regular Regex_argentina_national_id encuentra contenido que coincide con el patrón.
- Se encuentra una palabra clave de Keyword_argentina_national_id.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="250">
<Pattern confidenceLevel="75">
<IdMatch idRef="Regex_argentina_national_id"/>
<Match idRef="Keyword_argentina_national_id"/>
</Pattern>
</Entity>
Palabras clave
Keyword_argentina_national_id
- Número de identidad nacional de Argentina
- Identidad
- Tarjeta de identidad nacional de identificación
- DNI
- Registro Nacional de Personas (NIC)
- Documento Nacional de Identidad
- Registro nacional de las personas
- Identidad
- Identificación
Más información sobre los niveles de confianza
En una definición de entidad de tipo de información confidencial, el nivel de confianza refleja cuánta evidencia auxiliar se detecta además del elemento principal. Cuantos más pruebas auxiliares contenga un elemento, mayor será la confianza en que un elemento coincidente contiene la información confidencial que está buscando. Por ejemplo, las coincidencias con un nivel de confianza alto contienen más pruebas auxiliares cercanas al elemento principal, mientras que las coincidencias con un nivel de confianza bajo contendrían poca o ninguna evidencia auxiliar en proximidad.
Un nivel de confianza alto devuelve el menor número de falsos positivos, pero podría dar lugar a más falsos negativos. Los niveles de confianza bajo o medio devuelven más falsos positivos, pero pocos a cero falsos negativos.
- baja confianza: los elementos coincidentes contienen el menor número de falsos negativos, pero los más falsos positivos. La confianza baja devuelve todas las coincidencias de confianza baja, media y alta. El nivel de confianza bajo tiene un valor de 65.
- confianza media: los elementos coincidentes contienen un número promedio de falsos positivos y falsos negativos. La confianza media devuelve todas las coincidencias de confianza media y alta. El nivel de confianza medio tiene un valor de 75.
- alta confianza: los elementos coincidentes contienen el menor número de falsos positivos, pero los más falsos negativos. La confianza alta solo devuelve coincidencias de confianza alta y tiene un valor de 85.
Debe usar patrones de alto nivel de confianza con recuentos bajos, por ejemplo, de cinco a 10, y patrones de confianza baja con recuentos más altos, por ejemplo, 20 o más.
Nota:
Si tiene directivas existentes o tipos de información confidencial (SIT) personalizados definidos mediante niveles de confianza basados en números (también conocidos como precisión), se asignarán automáticamente a los tres niveles de confianza discretos; confianza baja, confianza media y confianza alta en la interfaz de usuario de Security @ Compliance Center.
- Todas las directivas con precisión mínima o patrones SIT personalizados con niveles de confianza de entre 76 y 100 se asignarán a una alta confianza.
- Todas las directivas con precisión mínima o patrones SIT personalizados con niveles de confianza de entre 66 y 75 se asignarán a confianza media.
- Todas las directivas con precisión mínima o patrones SIT personalizados con niveles de confianza inferiores o iguales a 65 se asignarán a una confianza baja.
Crear tipos de información confidencial personalizados
Puede elegir entre varias opciones para crear tipos de información confidencial personalizados en el portal de cumplimiento.
Usar la interfaz de usuario : puede configurar un tipo de información confidencial personalizada mediante la interfaz de usuario del portal de cumplimiento. Con este método, puede usar expresiones regulares, palabras clave y diccionarios de palabras clave. Para obtener más información, consulte Crear un tipo de información confidencial.
Usar EDM : puede configurar tipos de información confidencial personalizados mediante la clasificación basada en coincidencia exacta de datos (EDM). Este método le permite crear un tipo de información confidencial dinámico con una base de datos segura que puede actualizar periódicamente. Consulte Información sobre los tipos de información confidencial basados en coincidencias exactas de datos.
Usar PowerShell : puede configurar tipos de información confidencial personalizados mediante PowerShell. Aunque este método es más complejo que utilizar la interfaz de usuario, tendrá más opciones de configuración. Consulte Creación de un tipo de información confidencial personalizada en PowerShell de cumplimiento de seguridad &.
Nota:
Los niveles de confianza mejorados están disponibles para su uso inmediato en los servicios de prevención de pérdida de datos de Microsoft Purview, protección de la información, cumplimiento de comunicaciones, administración del ciclo de vida de datos y administración de registros. Information Protection ahora admite idiomas de juego de caracteres de doble byte para:
- Chino (simplificado)
- Chino (tradicional)
- Coreano
- Japonés
Este soporte está disponible para tipos de información confidencial. Para obtener más información, consulte La compatibilidad con la protección de la información para las notas de la versión de los conjuntos de caracteres de doble byte.
Sugerencia
Para detectar patrones que contengan caracteres chinos/japoneses y caracteres de un solo byte o para detectar patrones que contengan chino/japonés e inglés, defina dos variantes de la palabra clave o regex.
- Por ejemplo, para detectar una palabra clave como "机密的document", utilice dos variantes de la palabra clave; una con un espacio entre el texto japonés y el inglés y otra sin espacio entre el texto japonés y el inglés. Por lo tanto, las palabras clave que deben agregarse en el SIT deben ser "机密的document" y "机密的document". Del mismo modo, para detectar la frase "東京オリンピック2020", se deben utilizar dos variantes: "東京オリンピック 2020" y "東京オリンピック2020"".
Junto con caracteres de bytes chino, japonés o doble, si la lista de palabras clave o frases también contiene palabras no chinas o japonesas (por ejemplo, solo inglés), debe crear dos listas de diccionarios y palabras clave. Una para palabras clave que contienen caracteres de byte chino, japonés o doble y otra para palabras clave solo en inglés.
- Por ejemplo, si desea crear una palabra clave dictionary/list con tres frases "Extremadamente confidencial", "機密性が高い" y "机密的document", debe crear dos listas de palabras clave.
- Extremadamente confidencial
- 機密性が高い, 机密的document y 机密的 document
Al crear un regex con un guion de doble byte o un punto de byte doble, asegúrese de escapar ambos caracteres como si se escapara un guion o un punto en una expresión regular. Aquí hay un ejemplo de regex como referencia:
(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}
Se recomienda usar la coincidencia de cadena en lugar de la coincidencia de palabras en una lista de palabras clave.
Prueba del tipo de información confidencial
Puede probar sit mediante la carga de un archivo de ejemplo. Los resultados de la prueba muestran el número de coincidencias para cada nivel de confianza. Puede probar SIT integrados, SIT personalizados, clasificadores entrenables y coincidencia exacta de datos.
Probar tipo de información confidencial integrada y personalizada
Pruebe el tipo de información confidencial de coincidencia exacta de datos.
Proporcionar comentarios de coincidencia o no de precisión de coincidencia en tipos de información confidencial
Puede ver el número de coincidencias que tiene una SIT en Tipos de información confidencial y explorador de contenido. También puede proporcionar comentarios sobre si un elemento es realmente una coincidencia o no mediante el mecanismo de comentarios Match, Not a Match y usar esos comentarios para ajustar los SIT. Para obtener más información, consulte Aumento de la precisión del clasificador.
Para obtener más información
- Definiciones de entidad de tipos de información confidencial
- Crear un tipo personalizado de información confidencial
- Creación de un tipo de información confidencial personalizada en PowerShell
Para obtener información sobre cómo usar tipos de información confidencial para cumplir con las regulaciones de privacidad de datos, consulte Implementación de la protección de la información para las regulaciones de privacidad de datos con Microsoft 365 (aka.ms/m365dataprivacy).