Compartir vía


Configuración y ejecución del examen de calidad de datos

Los exámenes de calidad de datos revisan los recursos de datos en función de sus reglas de calidad de datos aplicadas y generan una puntuación. Los administradores de datos pueden usar esa puntuación para evaluar el estado de los datos y abordar cualquier problema que pueda reducir la calidad de los datos.

Requisitos previos

  • Para ejecutar y programar exámenes de evaluación de la calidad de los datos, los usuarios deben tener el rol administrador de calidad de datos.
  • Actualmente, la cuenta de Microsoft Purview se puede establecer para permitir el acceso público o el acceso administrado a la red virtual para que se puedan ejecutar exámenes de calidad de datos.

Ciclo de vida de la calidad de datos

El examen de la calidad de datos es el séptimo paso del ciclo de vida de la calidad de datos de un recurso de datos. Los pasos anteriores son:

  1. Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado para usar todas las características de calidad de datos.
  2. Registre y examine un origen de datos en el Mapa de datos de Microsoft Purview.
  3. Adición del recurso de datos a un producto de datos
  4. Configure una conexión de origen de datos para preparar el origen para la evaluación de la calidad de los datos.
  5. Configure y ejecute la generación de perfiles de datos para un recurso en el origen de datos.
    1. Una vez completada la generación de perfiles, examine los resultados de cada columna del recurso de datos para comprender la estructura y el estado actuales de los datos.
  6. Configure reglas de calidad de datos basadas en los resultados de generación de perfiles y aplíquelas al recurso de datos.

Orígenes de datos de nube múltiple admitidos

  • Azure Data Lake Storage (ADLS Gen2)
    • Tipos de archivo: Delta Parquet y Parquet
  • Base de datos SQL de Azure
  • El patrimonio de datos de Fabric en OneLake incluye acceso directo y creación de reflejo del patrimonio de datos. El análisis de calidad de datos solo se admite para tablas delta de Lakehouse y archivos parquet.
    • Patrimonio de datos de creación de reflejo: CosmosDB, Snowflake, Azure SQL
    • Patrimonio de datos de acceso directo: AWS S3, GCS, AdlsG2 y dataverse
  • Azure Synapse sin servidor y almacenamiento de datos
  • Unity Catalog para Azure Databricks
  • Copo de nieve
  • Google Big Query (versión preliminar privada)

Importante

Data Quality for Parquet file está diseñado para admitir:

  1. Directorio con el archivo de elementos de Parquet. Por ejemplo: ./Sales/{Parquet Part Files}. El nombre completo debe seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Asegúrese de que no tenemos patrones {n} en la estructura de directorios o subdirectorio, sino que debe ser un FQN directo que conduce a {SparkPartitions}.
  2. Directorio con archivos Parquet con particiones, con particiones por columnas dentro del conjunto de datos, como los datos de ventas particionados por año y mes. por ejemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Se admiten ambos escenarios esenciales que presentan un esquema de conjunto de datos de Parquet coherente.
Limitación: No está diseñado para o no admitirá N jerarquías arbitrarias de directorios con archivos Parquet. Recomendamos al cliente que presente datos en (1) o (2) estructura construida.

Métodos de autenticación compatibles

Actualmente, Microsoft Purview solo puede ejecutar exámenes de calidad de datos mediante La identidad administrada como opción de autenticación. Los servicios de calidad de datos se ejecutan en Apache Spark 3.4 y Delta Lake 2.4. Para obtener más información sobre las regiones admitidas, consulte información general sobre la calidad de los datos.

Importante

Si el esquema se actualiza en el origen de datos, es necesario volver a ejecutar el examen del mapa de datos antes de ejecutar un examen de calidad de datos.

Ejecución de un examen de calidad de datos

  1. Configure las conexiones de un origen de datos a los recursos que va a examinar para buscar la calidad de los datos, si aún no los ha creado.

  2. En Catálogo unificado de Microsoft Purview, seleccione el menú Administración de estado y el submenú Calidad de datos.

  3. Seleccione un dominio de gobernanza en la lista.

    Captura de pantalla de un dominio de gobernanza y un producto de datos.

  4. Seleccione un producto de datos para evaluar la calidad de los datos de los recursos de datos vinculados a ese producto.

    Captura de pantalla de la selección del recurso de datos del producto de datos.

  5. Al seleccionar el producto de datos, se le llevará a la página información general sobre la calidad de los datos. Para examinar las reglas de calidad de datos existentes y agregar nuevas reglas, seleccione el menú Reglas en esta página. Para examinar el esquema del recurso de datos, seleccione el menú Esquema de esta página.

    Captura de pantalla de la página de información general del examen de calidad de datos.

  6. Examine las reglas que ya se han agregado al examen de los recursos seleccionados y active o desactive en la columna Estado .

    Captura de pantalla de la página de reglas de calidad de datos.

  7. Ejecute el examen de calidad seleccionando el botón Ejecutar examen de calidad en la página de información general.

    Captura de pantalla de la página de información general sobre la calidad de los datos con el botón Detección de calidad de ejecución resaltado.

  8. Mientras se ejecuta el examen, puede realizar un seguimiento de su progreso desde la página de supervisión de la calidad de los datos en el dominio de gobernanza.

Programación de exámenes de calidad de datos

Aunque los exámenes de calidad de datos se pueden ejecutar de forma ad hoc seleccionando el botón Ejecutar examen de calidad , en escenarios de producción es probable que los datos de origen se actualicen constantemente y, por lo tanto, queremos asegurarnos de que supervisamos periódicamente su calidad de datos para detectar cualquier problema. Para permitirnos administrar exámenes de calidad que se actualizan periódicamente, podemos automatizar el proceso de digitalización.

  1. En Catálogo unificado de Microsoft Purview, seleccione el menú Administración de estado y el submenú Calidad de datos.

  2. Seleccione un dominio de gobernanza en la lista.

  3. Seleccione el botón Administrar en el lado derecho de la página y seleccione Exámenes programados.

    Captura de pantalla de la página de calidad de datos de un dominio de gobernanza, con el botón Exámenes programados resaltado.

  4. Rellene el formulario en la página Crear examen programado . Agregue un nombre y una descripción para el origen que va a configurar la programación.

    Captura de pantalla de la pestaña de información general sobre la creación de una página de examen programado.

  5. Seleccione Continuar.

  6. En la pestaña Ámbito , seleccione productos y recursos de datos individuales o todos los productos de datos y los recursos de datos de todo el dominio de gobernanza.

    Captura de pantalla de la pestaña Crear un ámbito de página de examen programado.

  7. Seleccione Continuar.

  8. Establezca una programación basada en sus preferencias y seleccione Continuar.

    Captura de pantalla de la pestaña Crear una programación de página de examen programado.

  9. En la pestaña Revisar, seleccione Guardar (o Guardar y ejecutar para probar inmediatamente) para completar la programación del examen de evaluación de la calidad de los datos.

    Captura de pantalla de la pestaña crear una revisión de página de examen programado.

  10. Puede supervisar los exámenes programados en la página de supervisión del trabajo de calidad de datos en la pestaña Exámenes .

Eliminación de exámenes de calidad de datos anteriores

  1. En Catálogo unificado de Microsoft Purview, seleccione el menú Administración de estado y el submenú Calidad de datos.
  2. Seleccione un dominio de gobernanza en la lista.
  3. Seleccione el botón de puntos suspensivos ('...') en la parte superior de la página.
  4. Seleccione Eliminar datos de calidad de datos para eliminar el historial de ejecuciones de calidad de datos.

Nota:

Solo se recomienda usar esta eliminación para las ejecuciones de prueba, las ejecuciones de calidad de datos con errores o en el caso de que esté quitando un recurso de datos de un producto de datos.

Si desea quitar un recurso de datos de un producto de datos, si ese recurso de datos tiene una puntuación de calidad de datos, primero debe eliminar la puntuación de calidad de datos y, a continuación, quitar el recurso de datos del producto de datos.

Importante

El formato delta se detecta principalmente automáticamente si el formato es estándar y correcto en los sistemas de origen. Para examinar el formato de archivo Parquet o iceberg para obtener una puntuación de calidad de datos, debe cambiar el tipo de recurso de datos a Parquet o iceberg. Como se muestra en la captura de pantalla siguiente, cambie el tipo de recurso de datos predeterminado *Parquet u otro formato compatible si el formato del archivo de recursos de datos no es delta. Este cambio debe realizarse antes de configurar el trabajo de examen de calidad de datos.

Captura de pantalla de la selección del tipo de recurso.

Pasos siguientes