Introducción a los clasificadores que se pueden entrenar
Un clasificador que se puede entrenar de Microsoft Purview es una herramienta que puede entrenar para reconocer varios tipos de contenido al darle ejemplos a los que examinar. Una vez entrenado, puede usarlo para identificar el elemento para la aplicación de etiquetas de confidencialidad de Office, directivas de cumplimiento de comunicaciones y directivas de etiquetas de retención.
Se requieren dos pasos para implementar un clasificador personalizado que se puede entrenar:
- Proporcione dos conjuntos de datos de ejemplo (seleccionados por humanos).
- Conjunto que solo contiene elementos que pertenecen a la categoría.
- Conjunto que contiene solo elementos que no pertenecen a la categoría.
- Pruebe la capacidad del clasificador para detectar coincidencias.
En este artículo se explica cómo crear y probar un clasificador personalizado.
Para obtener más información sobre los distintos tipos de clasificadores, consulte Más información sobre los clasificadores que se pueden entrenar.
Sugerencia
Si no es cliente de E5, use la prueba de 90 días de soluciones de Microsoft Purview para explorar cómo las funcionalidades adicionales de Purview pueden ayudar a su organización a administrar las necesidades de cumplimiento y seguridad de los datos. Comience ahora en el centro de pruebas de Microsoft Purview. Obtenga más información sobre términos de suscripción y prueba.
Requisitos previos
Requisitos de licencias
Los clasificadores son una característica de cumplimiento de Microsoft 365 E3 y E5. Debe tener una de estas suscripciones para poder usarlas.
Permissions
Para usar clasificadores en los siguientes escenarios, necesita los permisos siguientes:
Escenario | Permisos de rol necesarios |
---|---|
Directiva de etiqueta de retención | Administración de registros Administración de retención |
Directiva de etiqueta de confidencialidad | Administrador de seguridad Administrador de cumplimiento Administrador de datos de cumplimiento |
Directiva de cumplimiento de comunicaciones | Administrador de administración de riesgos internos Administrador de revisión de supervisión |
Importante
De forma predeterminada, solo el usuario que crea un clasificador personalizado puede entrenar y revisar las predicciones realizadas por ese clasificador.
Preparación para un clasificador personalizado que se puede entrenar
Es útil comprender lo que implica la creación de un clasificador personalizado que se puede entrenar antes de profundizar.
Flujo de trabajo general
Para obtener más información sobre el flujo de trabajo general de la creación de clasificadores entrenables personalizados, consulte el flujo de proceso para crear clasificadores entrenables personalizados.
Contenido representativo
Para asegurarse de que el clasificador que se puede entrenar pueda identificar de forma independiente y precisa que un elemento pertenece a una categoría determinada de contenido, debe presentarlo con muchos ejemplos del tipo de contenido que se encuentra en la categoría. Esta alimentación de muestras al clasificador entrenable se conoce como propagación. Un humano debe ser el que seleccione el contenido de inicialización y ese contenido debe incluir dos conjuntos de datos: uno que contiene solo elementos que representan fuertemente el contenido que el clasificador está diseñado para detectar (muestras positivas) y un segundo conjunto de elementos que claramente no pertenecen (muestras negativas).
Se necesitan al menos 50 muestras positivas (hasta 500) y al menos 150 muestras negativas (hasta 1500) para entrenar un clasificador. Cuantos más ejemplos proporcione, más precisas serán las predicciones que realice el clasificador. El clasificador entrenable procesa hasta los 2000 ejemplos creados más recientemente (por marca de fecha y hora creada por el archivo).
Sugerencia
Para obtener mejores resultados, tenga al menos 200 elementos en el conjunto de muestras de prueba que incluya al menos 50 ejemplos positivos y al menos 150 ejemplos negativos.
Cómo crear un clasificador entrenable
Seleccione la pestaña adecuada para el portal que está usando. En función de su plan de Microsoft 365, el portal de cumplimiento Microsoft Purview se retirará o se retirará pronto.
Para obtener más información sobre Microsoft Purview portal, consulte Microsoft Purview portal. Para obtener más información sobre el portal de cumplimiento, consulte portal de cumplimiento Microsoft Purview.
En versión preliminar: El siguiente proceso automatiza las pruebas de clasificadores entrenables y acorta el flujo de trabajo de creación de 12 días a dos días. (En algunos casos, el proceso puede tardar solo unas horas).
Recopile entre 50 y 500 elementos de contenido de inicialización que representen fuertemente los datos que desea que el clasificador identifique positivamente como que están en la categoría. Para obtener una lista de los tipos de archivo admitidos, vea Extensiones predeterminadas de nombre de archivo rastreado y tipos de archivo analizados en SharePoint Server.
Recopile un segundo conjunto de contenido de inicialización (de 150 a 1500 elementos) que represente datos que no pertenecen a la categoría.
Coloque el contenido de inicialización positivo y negativo en carpetas de SharePoint independientes. Cada carpeta debe estar dedicada a contener solo el contenido de inicialización. Anote la dirección URL del sitio, la biblioteca y la carpeta para cada conjunto.
Sugerencia
Si crea un nuevo sitio y una carpeta de SharePoint para los datos de inicialización, espere al menos una hora para que esa ubicación se indexe antes de crear el clasificador entrenable que usará esos datos de inicialización.
Inicie sesión en el portal de Microsoft Purview o en el portal de cumplimiento Microsoft Purview con acceso al rol administrador de cumplimiento o administrador de seguridad y vaya aClasificadores declasificación de datos de prevención>> de pérdida de datos.
Elija la pestaña Clasificadores entrenables .
Elija Crear clasificador entrenable.
Agregue el origen de los ejemplos positivos : seleccione el sitio, la biblioteca y la dirección URL de carpeta de SharePoint para el contenido de inicialización que debe detectar el clasificador y, a continuación, elija Siguiente.
Agregue el origen de los ejemplos negativos : seleccione el sitio, la biblioteca y la dirección URL de carpeta de SharePoint para el contenido de inicialización que debe omitir el clasificador y, a continuación, elija Siguiente.
Revise la configuración y elija Crear clasificador entrenable.
En un plazo de 24 horas o menos, el clasificador que se puede entrenar procesa los datos de inicialización y compila un modelo de predicción. El estado del clasificador es En curso mientras procesa los datos representativos. Cuando el clasificador termina de procesar los datos de inicialización, se completan los cambios de estado en Entrenamiento y se han probado los elementos.
Una vez que se haya completado el entrenamiento y se hayan probado (automáticamente) los elementos, publique el clasificador eligiendo Publicar para su uso.
Una vez publicado, el clasificador está disponible como una condición en el etiquetado automático de Office con etiquetas de confidencialidad, la directiva de etiquetas de retención de aplicación automática basada en una condición y en Cumplimiento de comunicaciones.
Prueba del clasificador
Una vez que el clasificador entrenable procesa suficientes muestras positivas y negativas para crear un modelo de predicción, debe probar las predicciones que realiza. Al probar el clasificador, se comprueba si sus predicciones son correctas. Una vez procesados todos los datos, revise los resultados manualmente y compruebe si cada predicción es correcta, incorrecta o no está segura. Microsoft usa estos comentarios de forma agregada para mejorar el modelo de predicción.
Recursos adicionales
- Obtenga más información acerca de la prevención contra la pérdida de datos
- Etiquetas de confidencialidad
- Definiciones de entidad de tipos de información confidencial
- Impresión con dedo del documento
- Obtener información sobre los tipos de información confidencial basados en coincidencias exactas de datos