Configuración y ejecución del examen de calidad de datos
Los exámenes de calidad de datos revisan los recursos de datos en función de sus reglas de calidad de datos aplicadas y generan una puntuación. Los administradores de datos pueden usar esa puntuación para evaluar el estado de los datos y abordar cualquier problema que pueda reducir la calidad de los datos.
Requisitos previos
- Para ejecutar y programar exámenes de evaluación de la calidad de los datos, los usuarios deben tener el rol administrador de calidad de datos.
- Actualmente, la cuenta de Microsoft Purview se puede establecer para permitir el acceso público o el acceso administrado a la red virtual para que se puedan ejecutar exámenes de calidad de datos.
Ciclo de vida de la calidad de datos
El examen de la calidad de datos es el séptimo paso del ciclo de vida de la calidad de datos de un recurso de datos. Los pasos anteriores son:
- Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado para usar todas las características de calidad de datos.
- Registre y examine un origen de datos en el Mapa de datos de Microsoft Purview.
- Adición del recurso de datos a un producto de datos
- Configure una conexión de origen de datos para preparar el origen para la evaluación de la calidad de los datos.
-
Configure y ejecute la generación de perfiles de datos para un recurso en el origen de datos.
- Una vez completada la generación de perfiles, examine los resultados de cada columna del recurso de datos para comprender la estructura y el estado actuales de los datos.
- Configure reglas de calidad de datos basadas en los resultados de generación de perfiles y aplíquelas al recurso de datos.
Orígenes de datos de nube múltiple admitidos
- Azure Data Lake Storage (ADLS Gen2)
- Tipos de archivo: Delta Parquet y Parquet
- Base de datos SQL de Azure
- El patrimonio de datos de Fabric en OneLake incluye acceso directo y creación de reflejo del patrimonio de datos. El análisis de calidad de datos solo se admite para tablas delta de Lakehouse y archivos parquet.
- Patrimonio de datos de creación de reflejo: CosmosDB, Snowflake, Azure SQL
- Patrimonio de datos de acceso directo: AWS S3, GCS, AdlsG2 y dataverse
- Azure Synapse sin servidor y almacenamiento de datos
- Unity Catalog para Azure Databricks
- Copo de nieve
- Google Big Query (versión preliminar privada)
Importante
Data Quality for Parquet file está diseñado para admitir:
- Directorio con el archivo de elementos de Parquet. Por ejemplo: ./Sales/{Parquet Part Files}. El nombre completo debe seguir
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Asegúrese de que no tenemos patrones {n} en la estructura de directorios o subdirectorio, sino que debe ser un FQN directo que conduce a {SparkPartitions}. - Directorio con archivos Parquet con particiones, con particiones por columnas dentro del conjunto de datos, como los datos de ventas particionados por año y mes. por ejemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Se admiten ambos escenarios esenciales que presentan un esquema de conjunto de datos de Parquet coherente.
Limitación: No está diseñado para o no admitirá N jerarquías arbitrarias de directorios con archivos Parquet.
Recomendamos al cliente que presente datos en (1) o (2) estructura construida.
Métodos de autenticación compatibles
Actualmente, Microsoft Purview solo puede ejecutar exámenes de calidad de datos mediante La identidad administrada como opción de autenticación. Los servicios de calidad de datos se ejecutan en Apache Spark 3.4 y Delta Lake 2.4. Para obtener más información sobre las regiones admitidas, consulte información general sobre la calidad de los datos.
Importante
Si el esquema se actualiza en el origen de datos, es necesario volver a ejecutar el examen del mapa de datos antes de ejecutar un examen de calidad de datos.
Ejecución de un examen de calidad de datos
Configure las conexiones de un origen de datos a los recursos que va a examinar para buscar la calidad de los datos, si aún no los ha creado.
En Catálogo unificado de Microsoft Purview, seleccione el menú Administración de estado y el submenú Calidad de datos.
Seleccione un dominio de gobernanza en la lista.
Seleccione un producto de datos para evaluar la calidad de los datos de los recursos de datos vinculados a ese producto.
Al seleccionar el producto de datos, se le llevará a la página información general sobre la calidad de los datos. Para examinar las reglas de calidad de datos existentes y agregar nuevas reglas, seleccione el menú Reglas en esta página. Para examinar el esquema del recurso de datos, seleccione el menú Esquema de esta página.
Examine las reglas que ya se han agregado al examen de los recursos seleccionados y active o desactive en la columna Estado .
Ejecute el examen de calidad seleccionando el botón Ejecutar examen de calidad en la página de información general.
Mientras se ejecuta el examen, puede realizar un seguimiento de su progreso desde la página de supervisión de la calidad de los datos en el dominio de gobernanza.
Programación de exámenes de calidad de datos
Aunque los exámenes de calidad de datos se pueden ejecutar de forma ad hoc seleccionando el botón Ejecutar examen de calidad , en escenarios de producción es probable que los datos de origen se actualicen constantemente y, por lo tanto, queremos asegurarnos de que supervisamos periódicamente su calidad de datos para detectar cualquier problema. Para permitirnos administrar exámenes de calidad que se actualizan periódicamente, podemos automatizar el proceso de digitalización.
En Catálogo unificado de Microsoft Purview, seleccione el menú Administración de estado y el submenú Calidad de datos.
Seleccione un dominio de gobernanza en la lista.
Seleccione el botón Administrar en el lado derecho de la página y seleccione Exámenes programados.
Rellene el formulario en la página Crear examen programado . Agregue un nombre y una descripción para el origen que va a configurar la programación.
Seleccione Continuar.
En la pestaña Ámbito , seleccione productos y recursos de datos individuales o todos los productos de datos y los recursos de datos de todo el dominio de gobernanza.
Seleccione Continuar.
Establezca una programación basada en sus preferencias y seleccione Continuar.
En la pestaña Revisar, seleccione Guardar (o Guardar y ejecutar para probar inmediatamente) para completar la programación del examen de evaluación de la calidad de los datos.
Puede supervisar los exámenes programados en la página de supervisión del trabajo de calidad de datos en la pestaña Exámenes .
Eliminación de exámenes de calidad de datos anteriores
- En Catálogo unificado de Microsoft Purview, seleccione el menú Administración de estado y el submenú Calidad de datos.
- Seleccione un dominio de gobernanza en la lista.
- Seleccione el botón de puntos suspensivos ('...') en la parte superior de la página.
- Seleccione Eliminar datos de calidad de datos para eliminar el historial de ejecuciones de calidad de datos.
Nota:
Solo se recomienda usar esta eliminación para las ejecuciones de prueba, las ejecuciones de calidad de datos con errores o en el caso de que esté quitando un recurso de datos de un producto de datos.
Si desea quitar un recurso de datos de un producto de datos, si ese recurso de datos tiene una puntuación de calidad de datos, primero debe eliminar la puntuación de calidad de datos y, a continuación, quitar el recurso de datos del producto de datos.
Importante
El formato delta se detecta principalmente automáticamente si el formato es estándar y correcto en los sistemas de origen. Para examinar el formato de archivo Parquet o iceberg para obtener una puntuación de calidad de datos, debe cambiar el tipo de recurso de datos a Parquet o iceberg. Como se muestra en la captura de pantalla siguiente, cambie el tipo de recurso de datos predeterminado *Parquet u otro formato compatible si el formato del archivo de recursos de datos no es delta. Este cambio debe realizarse antes de configurar el trabajo de examen de calidad de datos.
Contenido relacionado
- Calidad de datos para el patrimonio de datos de Fabric
- Calidad de datos para orígenes de datos reflejados en Fabric
- Orígenes de datos de acceso directo de Calidad de datos para Fabric
- Calidad de datos para Azure Synapse almacenamiento de datos y sin servidor
- Calidad de datos para el catálogo de Azure Databricks Unity
- Calidad de datos para orígenes de datos de Snowflake
- Calidad de datos para Google Big Query
Pasos siguientes
- Supervisión del examen de calidad de datos
- Revise los resultados del examen para evaluar la calidad de los datos actuales del producto de datos.
- Configuración de alertas para los resultados del examen de calidad de datos