Compartir a través de


introducción a Calidad de datos de Microsoft Purview

Calidad de datos de Microsoft Purview es una solución completa que permite a los propietarios de dominios y datos de gobernanza evaluar y supervisar la calidad de su ecosistema de datos, facilitando las acciones dirigidas para mejorar. En el panorama actual basado en la inteligencia artificial, la confiabilidad de los datos afecta directamente a la precisión de las conclusiones y recomendaciones basadas en la inteligencia artificial. Sin datos de confianza, existe el riesgo de erosionar la confianza en los sistemas de inteligencia artificial y dificultar su adopción.

La mala calidad de los datos o las estructuras de datos incompatibles pueden obstaculizar los procesos empresariales y las capacidades de toma de decisiones. Calidad de datos de Microsoft Purview aborda estos desafíos al ofrecer a los usuarios la capacidad de evaluar la calidad de los datos mediante reglas sin código o código bajo, incluidas las reglas integradas (OOB) y las reglas generadas por IA. Estas reglas se aplican en el nivel de columna y se agregan para proporcionar puntuaciones en los niveles de recursos de datos, productos de datos y dominios de gobernanza, lo que garantiza una visibilidad integral de la calidad de los datos dentro de cada dominio.

Calidad de datos de Microsoft Purview también incorpora funcionalidades de generación de perfiles de datos con tecnología de inteligencia artificial, lo que recomienda columnas para la generación de perfiles, a la vez que permite la intervención humana para refinar estas recomendaciones. Este proceso iterativo no solo mejora la precisión de la generación de perfiles de datos, sino que también contribuye a la mejora continua de los modelos de inteligencia artificial subyacentes.

Al aplicar Calidad de datos de Microsoft Purview, las organizaciones pueden medir, supervisar y mejorar de forma eficaz la calidad de sus recursos de datos, lo que refuerza la confiabilidad de la información basada en inteligencia artificial y fomenta la confianza en los procesos de toma de decisiones basados en la inteligencia artificial.

Ciclo de vida de la calidad de datos

  1. Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado para usar todas las características de calidad de datos.
  2. Registre y examine un origen de datos en el Mapa de datos de Microsoft Purview.
  3. Adición del recurso de datos a un producto de datos
  4. Configure una conexión de origen de datos para preparar el origen para la evaluación de la calidad de los datos.
  5. Configure y ejecute la generación de perfiles de datos para un recurso en el origen de datos.
    1. Una vez completada la generación de perfiles, examine los resultados de cada columna del recurso de datos para comprender la estructura y el estado actuales de los datos.
  6. Configure reglas de calidad de datos basadas en los resultados de generación de perfiles y aplíquelas al recurso de datos.
  7. Configure y ejecute un examen de calidad de datos en un producto de datos para evaluar la calidad de todos los recursos admitidos en el producto de datos.
  8. Revise los resultados del examen para evaluar la calidad de los datos actuales del producto de datos.
  9. Repita los pasos del 5 al 8 periódicamente en el ciclo de vida del recurso de datos para asegurarse de que mantiene la calidad.
  10. Supervisión continua de la calidad de los datos
    1. Revise las acciones de calidad de los datos para identificar y resolver problemas.
    2. Establezca notificaciones de calidad de datos para que le avise de problemas de calidad.

Regiones de calidad de datos admitidas

Calidad de datos de Microsoft Purview se admite actualmente en las siguientes regiones

Orígenes de datos de nube múltiple admitidos

  • Azure Data Lake Storage (ADLS Gen2)
    • Tipos de archivo: Delta Parquet y Parquet
  • Base de datos SQL de Azure
  • Tejido de patrimonio de datos en OneLake, incluido el acceso directo y el patrimonio de datos de creación de reflejo. El análisis de calidad de datos solo se admite para tablas delta de Lakehouse y archivos parquet.
    • Patrimonio de datos de creación de reflejo: CosmosDB, Snowflake, Azure SQL
    • Patrimonio de datos de acceso directo: AWS S3, GCS, AdlsG2 y dataverse
  • Azure Synapse sin servidor y almacenamiento de datos
  • Unity Catalog para Azure Databricks
  • Copo de nieve
  • Google Big Query (versión preliminar privada)

Importante

Data Quality for Parquet file está diseñado para admitir:

  1. Directorio con el archivo de elementos de Parquet. Por ejemplo: ./Sales/{Parquet Part Files}. El nombre completo debe seguir https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}. Asegúrese de que no tenemos patrones {n} en la estructura de directorios o subdirectorio, sino que debe ser un FQN directo que conduce a {SparkPartitions}.
  2. Directorio con archivos Parquet con particiones, con particiones por columnas dentro del conjunto de datos, como los datos de ventas particionados por año y mes. Por ejemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

Se admiten ambos escenarios esenciales que presentan un esquema de conjunto de datos de Parquet coherente.
Limitación: No está diseñado para o no admitirá N jerarquías arbitrarias de directorios con archivos Parquet. Recomendamos al cliente que presente datos en (1) o (2) estructura construida.

Actualmente, Microsoft Purview solo puede ejecutar exámenes de calidad de datos mediante La identidad administrada como opción de autenticación. Los servicios de calidad de datos se ejecutan en Apache Spark 3.4 y Delta Lake 2.4.

Características de calidad de datos

  • Configuración de la conexión del origen de datos
    • Configure la conexión para permitir que la aplicación SaaS de Purview DQ tenga acceso de lectura a los datos para el examen y la generación de perfiles de calidad.
    • MS Purview usa La identidad administrada como opción de autenticación
  • Generación de perfiles de datos
    • Experiencia de generación de perfiles de datos habilitada para IA
    • Instantánea estadística estándar del sector (distribución, min, max, desviación estándar, unicidad, integridad, duplicado, ...)
    • Explorar en profundidad las medidas de generación de perfiles de nivel de columna.
  • Reglas de calidad de datos
    • Reglas predefinidas para medir seis estándares del sector Dimensiones de calidad de datos (integridad, coherencia, conformidad, precisión, frescura y exclusividad)
    • Las características de creación de reglas personalizadas incluyen el número de funciones predefinidas y los valores de expresión.
    • Reglas generadas automáticamente con experiencia integrada de inteligencia artificial
  • Examen de calidad de datos
    • Seleccione y asigne reglas a las columnas para el examen de calidad de datos.
    • Aplique la regla de actualización de datos en el nivel de entidad o tabla para medir el acuerdo de nivel de servicio de actualización de datos.
    • Programación del trabajo de examen de calidad de datos para el período de tiempo (por hora, diario, semanal, mensual, etc.)
  • Supervisión de trabajos de calidad de datos
    • Habilitación del estado del trabajo de calidad de datos de supervisión (activo, completado, con errores, etc.)
    • Habilite la exploración del historial de examen de DQ.
  • Puntuación de calidad de datos
    • Puntuación de calidad de datos en el nivel de regla (cuál es la puntuación de calidad de una regla que se aplica a una columna)
    • Puntuación de calidad de datos para recursos de datos, productos de datos y dominios de gobernanza (un dominio de gobernanza puede tener muchos productos de datos, un producto de datos puede tener muchos recursos de datos, un recurso de datos puede tener muchas columnas de datos)
  • Calidad de datos para elementos de datos críticos (CDE)
    • Esta es una de las características clave de Purview Data Quality, es la capacidad de aplicar reglas de calidad de datos a la construcción lógica de las CDE, que luego se propagan a los elementos de datos físicos que las componen. Mediante la definición de reglas de calidad de datos en el nivel de las CDE, las organizaciones pueden establecer criterios y umbrales específicos que los CDE deben cumplir para mantener su calidad
  • Alertas de calidad de datos
    • Configure alertas para notificar a los propietarios de datos y administradores de datos si el umbral de calidad de los datos no superó las expectativas.
    • configure el alias de correo electrónico o el grupo de distribución para enviar la notificación sobre problemas de calidad de datos.
  • Acciones de calidad de datos
    • Centro de acciones para DQ con acciones para abordar los estados de anomalía de DQ, incluidas las consultas de diagnóstico para el administrador de DQ a cero en los datos específicos que se corregirán para cada estado de anomalía.
  • Red virtual administrada de calidad de datos
    • Una red virtual administrada por la calidad de los datos que se conecta con puntos de conexión privados a los orígenes de datos de Azure.

Limitación

  • La red virtual no se admite para el catálogo de Google Big Query, Snowflake y Azure Data Bricks Unity.

Pasos siguientes

  1. Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado para usar todas las características de calidad de datos.
  2. Configure una conexión de origen de datos para preparar el origen para la evaluación de la calidad de los datos.
  3. Configure y ejecute la generación de perfiles de datos para un recurso en el origen de datos.