Exámenes e ingesta en Microsoft Purview
En este artículo se proporciona información general sobre las características de examen e ingesta en Microsoft Purview. Estas características conectan la cuenta de Microsoft Purview a los orígenes para rellenar el mapa de datos y el catálogo de datos, de modo que pueda empezar a explorar y administrar los datos a través de Microsoft Purview.
- El examen captura metadatos de orígenes de datos y los lleva a Microsoft Purview.
-
La ingesta procesa metadatos y los almacena en el catálogo de datos de ambos:
- Exámenes del origen de datos: los metadatos examinados se agregan al Mapa de datos de Microsoft Purview.
- Conexiones de linaje: los recursos de transformación agregan metadatos sobre sus orígenes, salidas y actividades al Mapa de datos de Microsoft Purview.
Análisis
Después de registrar los orígenes de datos en la cuenta de Microsoft Purview, el siguiente paso es examinar los orígenes de datos. El proceso de examen establece una conexión con el origen de datos y captura metadatos técnicos, como nombres, tamaño de archivo, columnas, etc. También extrae el esquema para orígenes de datos estructurados, aplica clasificaciones en esquemas y aplica etiquetas de confidencialidad si el Mapa de datos de Microsoft Purview está conectado a un portal de cumplimiento Microsoft Purview. El proceso de examen se puede desencadenar para ejecutarse inmediatamente o puede programarse para ejecutarse periódicamente para mantener actualizada la cuenta de Microsoft Purview.
Para cada examen, hay personalizaciones que puede aplicar para que solo esté escaneando la información que necesita, en lugar de todo el origen.
Elección de un método de autenticación para los exámenes
Microsoft Purview es seguro de forma predeterminada. No hay contraseñas ni secretos almacenados directamente en Microsoft Purview, por lo que deberá elegir un método de autenticación para los orígenes. Hay varias maneras posibles de autenticar la cuenta de Microsoft Purview, pero no todos los métodos son compatibles con cada origen de datos.
- Identidad administrada
- Entidad de servicio
- Autenticación de SQL
- Autenticación de Windows
- ARN de rol
- Autenticación delegada
- Clave de consumidor
- Clave de cuenta o autenticación básica
Siempre que sea posible, una identidad administrada es el método de autenticación preferido porque elimina la necesidad de almacenar y administrar credenciales para orígenes de datos individuales. Esto puede reducir considerablemente el tiempo que usted y su equipo dedican a configurar y solucionar problemas de autenticación para exámenes. Al habilitar una identidad administrada para su cuenta de Microsoft Purview, se crea una identidad en Microsoft Entra ID y está asociada al ciclo de vida de la cuenta.
Ámbito del examen
Al examinar un origen, tiene la opción de examinar todo el origen de datos o elegir solo entidades específicas (carpetas o tablas) para examinar. Las opciones disponibles dependen del origen que está escaneando y se pueden definir para exámenes programados y de una sola vez.
Por ejemplo, al crear y ejecutar un examen para una base de datos de Azure SQL, puede elegir qué tablas examinar o seleccionar toda la base de datos.
Para cada entidad (carpeta o tabla), habrá tres estados de selección: totalmente seleccionados, parcialmente seleccionados y no seleccionados. En el ejemplo siguiente, si selecciona "Departamento 1" en la jerarquía de carpetas, "Departamento 1" se considera totalmente seleccionado. Las entidades primarias para "Department 1", como "Company" y "example", se consideran parcialmente seleccionadas, ya que hay otras entidades en el mismo elemento primario que no se han seleccionado, por ejemplo, "Department 2". Se usarán diferentes iconos en la interfaz de usuario para las entidades con distintos estados de selección.
Después de ejecutar el examen, es probable que haya nuevos recursos agregados en el sistema de origen. De forma predeterminada, los activos futuros de un elemento primario determinado se seleccionarán automáticamente si el elemento primario está seleccionado total o parcialmente al volver a ejecutar el examen. En el ejemplo anterior, después de seleccionar "Departamento 1" y ejecutar el examen, se incluirán los nuevos recursos en la carpeta "Departamento 1" o en "Empresa" y "ejemplo" cuando vuelva a ejecutar el examen.
Se introduce un botón de alternancia para que los usuarios controlen la inclusión automática de nuevos recursos en el elemento primario parcialmente seleccionado. De forma predeterminada, se desactivará la alternancia y se deshabilitará el comportamiento de inclusión automática para el elemento primario parcialmente seleccionado. En el mismo ejemplo con el botón de alternancia desactivado, no se incluirán nuevos recursos en elementos primarios parcialmente seleccionados, como "Empresa" y "ejemplo", cuando vuelva a ejecutar el examen, solo se incluirán nuevos recursos en "Departamento 1" en el examen futuro.
Si el botón de alternancia está activado, los nuevos recursos de un elemento primario determinado se seleccionarán automáticamente si el elemento primario está seleccionado total o parcialmente al volver a ejecutar el examen. El comportamiento de inclusión será el mismo que antes de que se introduzca el botón de alternancia.
Nota:
- La disponibilidad del botón de alternancia dependerá del tipo de origen de datos. Actualmente está disponible en versión preliminar pública para orígenes como Azure Blob Storage, Azure Data Lake Storage Gen 1, Azure Data Lake Storage Gen 2, Azure Files y el grupo de SQL dedicado de Azure (anteriormente SQL DW).
- Para los exámenes creados o programados antes de que se introduzca el botón de alternancia, el estado de alternancia se establece como activado y no se puede cambiar. Para los exámenes creados o programados después de introducir el botón de alternancia, el estado de alternancia no se puede cambiar después de guardar el examen. Debe crear un nuevo examen para cambiar el estado de alternancia.
- Cuando se desactiva el botón de alternancia, para orígenes de tipo de almacenamiento como Azure Data Lake Storage Gen 2, la experiencia de examinar por tipo de origen puede tardar hasta 4 horas en estar totalmente disponible una vez completado el trabajo de examen.
Limitaciones conocidas
Cuando el botón de alternancia está desactivado:
- Las entidades de archivo en un elemento primario parcialmente seleccionado no se examinarán.
- Si se seleccionan explícitamente todas las entidades existentes en un elemento primario, el elemento primario se considerará totalmente seleccionado y se incluirán los nuevos recursos del elemento primario cuando vuelva a ejecutar el examen.
Personalización del nivel de examen
En Mapa de datos de Microsoft Purview terminología, hay tres niveles diferentes de análisis basados en el ámbito y las funcionalidades de los metadatos:
- Examen L1: extrae información básica y metadatos, como el nombre de archivo, el tamaño y el nombre completo.
- Examen L2: extrae el esquema para tipos de archivos estructurados y tablas de base de datos
- Examen L3: extrae el esquema cuando corresponda y somete el archivo muestreado al sistema y a las reglas de clasificación personalizadas.
Al configurar un nuevo examen o editar un examen existente, puede personalizar el nivel de examen para los orígenes de datos de examen que ya han admitido la configuración del nivel de examen.
De forma predeterminada, se seleccionará la opción "Detección automática", lo que significa que Microsoft Purview aplicará el nivel de examen más alto disponible para este origen de datos. Tome Azure SQL Base de datos como ejemplo, la "Detección automática" se resolverá como "Nivel 3" cuando se ejecute el examen, ya que el origen de datos ya ha admitido la clasificación en Microsoft Purview. El nivel de examen en el detalle de la ejecución del examen mostrará el nivel real aplicado.
Para todas las ejecuciones de examen en el historial de exámenes que se completaron antes de personalizar el nivel de examen a medida que se introduce una nueva característica, de forma predeterminada el nivel de examen se establecerá y mostrará como "Detección automática".
- Cuando un nivel de examen superior esté disponible para un origen de datos, los exámenes guardados o programados que tengan el nivel de examen establecido en "Detección automática" aplicarán automáticamente el nuevo nivel de examen. Por ejemplo, si la clasificación como nueva característica está habilitada para un origen de datos determinado, todos los exámenes existentes en este origen de datos aplicarán la clasificación automáticamente.
- La configuración de nivel de examen se mostrará en la interfaz de supervisión del examen para cada ejecución de examen.
- Si se selecciona "Nivel 1", el examen solo devolverá metadatos técnicos básicos, como el nombre del recurso, el tamaño del recurso, la marca de tiempo modificada, etc., en función de la disponibilidad de metadatos existente de un origen de datos específico. Para Azure SQL Database, se crearán entidades de recursos como tablas en Mapa de datos de Microsoft Purview pero sin extracción de esquemas de tabla. (Nota: los usuarios todavía pueden ver el esquema de tabla a través de la vista en vivo si tienen los permisos necesarios en el sistema de origen).
- Si se selecciona "Nivel 2", el examen devolverá esquemas de tabla, así como metadatos técnicos básicos, pero no se realizará el muestreo y la clasificación de datos. Para Azure SQL Database, las entidades de recursos de tabla tendrán un esquema de tabla capturado sin información de clasificación).
- Si se selecciona "Nivel 3", el examen realizará el muestreo y la clasificación de datos. Se trata de una configuración estándar para el examen de Azure SQL base de datos antes del nivel de examen a medida que se introduce una nueva característica.
- Si un examen programado se establece en un nivel de examen inferior y se modifica posteriormente a un nivel de examen superior, la siguiente ejecución de examen realizará automáticamente un examen completo y todos los recursos de datos existentes del origen de datos se actualizarán con los metadatos introducidos por una configuración de nivel de examen superior. Por ejemplo, cuando un conjunto de exámenes programados con "Nivel 2" en una base de datos de Azure SQL se cambia a "Nivel 3", la siguiente ejecución del examen será un examen completo y todos los recursos existentes Azure SQL de tabla o vista de base de datos se actualizarán con información de clasificación y, a partir de entonces, todos los exámenes se reanudarán como exámenes incrementales establecidos con "Nivel 3".
- Si un examen programado se establece en un nivel de examen superior y, posteriormente, se modifica a un nivel de examen inferior, la siguiente ejecución del examen continuará realizando un examen incremental y todos los nuevos recursos de datos del origen de datos solo tendrán metadatos introducidos por una configuración de nivel de examen inferior. Por ejemplo, cuando un conjunto de exámenes programados con "Nivel 3" en una base de datos de Azure SQL se cambia a "Nivel 2", la siguiente ejecución del examen será un examen incremental y todos los nuevos recursos de tabla o vista de Azure SQL Base de datos agregados en Mapa de datos de Microsoft Purview no tendrán información de clasificación. Todos los recursos de datos existentes seguirán manteniendo la información de clasificación generada a partir del examen anterior establecido con "Level-3".
Nota:
- La personalización del nivel de examen está disponible actualmente para los siguientes orígenes de datos: Azure SQL Database, Azure SQL Managed Instance, Azure Cosmos DB for NoSQL, Azure Database for PostgreSQL, Azure Database for MySQL, Azure Data Lake Storage Gen2, Azure Blob Storage, Azure Files, Azure Synapse Analytics, grupo de SQL dedicado de Azure (anteriormente SQL DW), Azure Data Explorer, Dataverse, Azure Multiple (suscripción de Azure), Azure Multiple (grupo de recursos de Azure), Snowflake, Catálogo de Azure Databricks Unity
- Actualmente, la característica solo está disponible en Azure IR y Managed VNet IR v2.
Conjunto de reglas de examen
Un conjunto de reglas de examen determina los tipos de información que un examen buscará cuando se ejecute en uno de los orígenes. Las reglas disponibles dependen del tipo de origen que se va a examinar, pero incluyen elementos como los tipos de archivo que debe examinar y los tipos de clasificaciones que necesita.
Ya hay conjuntos de reglas de examen del sistema disponibles para muchos tipos de orígenes de datos, pero también puede crear sus propios conjuntos de reglas de examen para adaptar los exámenes a su organización.
Programar el examen
Microsoft Purview le ofrece la opción de escanear diariamente, semanalmente o mensualmente en un momento específico que elija. Obtenga más información sobre las opciones de programación admitidas. Los exámenes diarios o semanales pueden ser adecuados para orígenes de datos con estructuras que están activamente en desarrollo o que cambian con frecuencia. El examen mensual es más adecuado para los orígenes de datos que cambian con poca frecuencia. El procedimiento recomendado consiste en trabajar con el administrador del origen que desea examinar para identificar un momento en el que las demandas de proceso en el origen son bajas.
Cómo los exámenes detectan los recursos eliminados
Un catálogo de Microsoft Purview solo conoce el estado de un almacén de datos cuando ejecuta un examen. Para que el catálogo sepa si se eliminó un archivo, una tabla o un contenedor, compara la última salida de examen con la salida de examen actual. Por ejemplo, suponga que la última vez que examinó una cuenta de Azure Data Lake Storage Gen2, incluyó una carpeta denominada folder1. Cuando se vuelve a examinar la misma cuenta, falta folder1 . Por lo tanto, el catálogo supone que la carpeta se ha eliminado.
Sugerencia
Debido a cómo se detectan los archivos eliminados, es posible que se necesiten varios exámenes correctos para detectar y resolver los recursos eliminados. Si el catálogo de datos no registra eliminaciones para un examen con ámbito, pruebe varios exámenes completos para resolver el problema.
Detección de archivos eliminados
La lógica para detectar archivos que faltan funciona para varios exámenes por el mismo usuario y por distintos usuarios. Por ejemplo, supongamos que un usuario ejecuta un examen único en un almacén de datos Data Lake Storage Gen2 en las carpetas A, B y C. Más adelante, un usuario diferente de la misma cuenta ejecuta un examen único diferente en las carpetas C, D y E del mismo almacén de datos. Dado que la carpeta C se ha examinado dos veces, el catálogo comprueba si hay posibles eliminaciones. Las carpetas A, B, D y E, sin embargo, solo se examinaron una vez y el catálogo no comprobará si hay recursos eliminados.
Para mantener los archivos eliminados fuera del catálogo, es importante ejecutar exámenes normales. El intervalo de examen es importante, ya que el catálogo no puede detectar los recursos eliminados hasta que se ejecuta otro examen. Por lo tanto, si ejecuta exámenes una vez al mes en un almacén determinado, el catálogo no podrá detectar ningún recurso de datos eliminados en ese almacén hasta que ejecute el siguiente examen un mes más tarde.
Al enumerar almacenes de datos grandes como Data Lake Storage Gen2, hay varias maneras (incluidos errores de enumeración y eventos eliminados) de perder información. Es posible que un examen determinado pierda que se creó o eliminó un archivo. Por lo tanto, a menos que el catálogo esté seguro de que se eliminó un archivo, no lo eliminará del catálogo. Esta estrategia significa que puede haber errores cuando todavía existe un archivo que no existe en el almacén de datos examinado en el catálogo. En algunos casos, es posible que sea necesario examinar un almacén de datos dos o tres veces antes de detectar determinados recursos eliminados.
Nota:
- Los recursos marcados para su eliminación se eliminan después de un examen correcto. Es posible que los recursos eliminados sigan siendo visibles en el catálogo durante algún tiempo antes de que se procesen y quiten.
- Actualmente, la detección de eliminación de origen no es compatible con los siguientes orígenes: Azure Databricks, Amazon Redshift, Cassandra, Dataverse, Db2, Erwin, Google BigQuery, Hive Metastore, Looker, MongoDB, MySQL, Oracle, PostgreSQL, Power BI, Qlik Sense, Salesforce, SAP BW, SAP ECC, SAP HANA, SAP S/4HANA, Snowflake, Tableau y Teradata. Cuando se elimina el objeto del origen de datos, el examen posterior no quitará automáticamente el recurso correspondiente en Microsoft Purview.
Ingestión
La ingesta es el proceso responsable de rellenar el mapa de datos con metadatos recopilados a través de sus diversos procesos.
Ingesta de exámenes
A continuación, los metadatos técnicos o las clasificaciones identificados por el proceso de examen se envían a la ingesta. La ingesta analiza la entrada del examen, aplica patrones de conjunto de recursos, rellena la información de linaje disponible y, a continuación, carga el mapa de datos automáticamente. Los recursos o esquemas solo se pueden detectar o seleccionar una vez completada la ingesta. Por lo tanto, si el examen se ha completado pero no ha visto los recursos en el mapa de datos o el catálogo, tendrá que esperar a que finalice el proceso de ingesta.
Ingesta desde conexiones de linaje
Los recursos como Azure Data Factory y Azure Synapse se pueden conectar a Microsoft Purview para incluir información de origen de datos y linaje en el Mapa de datos de Microsoft Purview. Por ejemplo, cuando se ejecuta una canalización de copia en un Azure Data Factory que se ha conectado a Microsoft Purview, los metadatos sobre los orígenes de entrada, la actividad y los orígenes de salida se ingieren en Microsoft Purview y la información se agrega al mapa de datos.
Si ya se ha agregado un origen de datos al mapa de datos a través de un examen, se agregará información de linaje sobre la actividad al origen existente. Si el origen de datos aún no se ha agregado al mapa de datos, el proceso de ingesta de linaje lo agregará a la colección raíz con su información de linaje.
Para obtener más información sobre las conexiones de linaje disponibles, consulte la guía del usuario de linaje.
Pasos siguientes
Para obtener más información, o para obtener instrucciones específicas para examinar orígenes, siga los vínculos siguientes.
- Para comprender los conjuntos de recursos, consulte nuestro artículo sobre los conjuntos de recursos.
- Cómo controlar una base de datos de Azure SQL
- Linaje en Microsoft Purview