Examinar y revisar la puntuación de calidad de los datos de su patrimonio de datos
Una vez que haya creado reglas de calidad de datos y ejecutado un examen de calidad de datos, los recursos de datos recibirán una puntuación de calidad de datos basada en los resultados de las reglas. En este artículo se explica cómo se calculan las puntuaciones para proporcionarle un conocimiento más profundo de los resultados de calidad de los datos y ayudarle a desarrollar elementos de acción para mejorar la integridad de los datos.
Descripción de las puntuaciones de calidad de los datos
El objetivo de las reglas de calidad de datos es proporcionar una descripción del estado de los datos. En concreto, muestra lo lejos que están los datos del estado ideal descrito por las reglas. Cada regla, cuando se ejecuta, genera una puntuación que describe lo cerca que están los datos de su estado deseado. La mayoría de las reglas son muy directas; dividen el número total de filas que han pasado la evaluación por el número total de filas que llegan a la puntuación.
La fórmula utilizada para calcular la puntuación de calidad de los datos de una regla con respecto a los datos de una columna es:
[(total number of passed records)/(passed records + failed records + miscast records + empty records + ignored records)]
- Numerador = número de registros pasados
- Denominador = número total de registros (número de registros pasados + número de registros con errores + número de registros de difusión incorrecta + número de registros vacíos + número de registros omitidos)
- Pasado: número de registros que pasaron una regla aplicada
- No valorable: las columnas necesarias para evaluar esta regla no son evaluables
- Error: número de registros con errores en una regla aplicada
- Difusión incorrecta: el tipo de datos del recurso y el tipo que el cliente lo enumeró como no coinciden. No se puede convertir al tipo expresado.
- Vacío: registros nulos o en blanco
- Omitido: las filas no participaron en la evaluación de reglas. Los clientes pueden expresar filas para omitirlas. Como omitir todas las filas que tienen correo electrónico = "n/a" o Omitir todas las filas donde departmentCode = 'test' o 'internal'
Calidad de datos de Microsoft Purview, a continuación, da una idea del estado de cada columna mediante la generación de una puntuación de columna. Esta puntuación es el promedio de todas las puntuaciones de las reglas de esa columna.
Una vez calculadas las puntuaciones de columna, la fórmula utilizada para calcular la puntuación media de calidad de los datos de los productos de datos y los dominios de gobernanza es:
[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100
(La puntuación se multiplica por 100 para que las puntuaciones sean más legibles).
Cálculo de ejemplo
Imaginemos que hay una columna que no tiene definida la regla "Campos vacíos o en blanco" . Esto implica que se permiten valores NULL para esta columna. Por lo tanto, ciertas reglas, como la regla de valores únicos, filtrarán los valores NULL en ese caso.
Por ejemplo: Si el recurso tiene 10 000 filas en una tabla, pero 3000 eran null y 500 no eran únicos, la puntuación sería: ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93
Las filas nulas se omiten al evaluar los datos y determinar una puntuación.
Puntuaciones de regla específicas
En el caso de las reglas personalizadas , hay una funcionalidad similar a la que puede ver para la regla de valores únicos, pero en este caso el filtro no está en valores NULL, sino en la expresión de filtro.
Algunas reglas, como la regla de actualización, se pasan o producen un error. Por lo tanto, sus puntuaciones serán 0 o 100. Y la regla de actualización se aplica en el nivel de recurso de datos, no en el nivel de columnas.
Detalles e historial de reglas
Puede ver los detalles y el historial de las puntuaciones de regla seleccionando una regla. Al seleccionar un nombre de regla específico y navegar a la pestaña historial de reglas, verá la tendencia de las distintas ejecuciones de examen de la regla determinada.
Detalles de la regla proporcionarán información sobre el número de filas pasadas, erróneas e ignoradas para las distintas ejecuciones de la regla determinada. Las reglas que están en estado borrador (estado OFF) no harán que sus puntuaciones contribuyan a la puntuación global. Las reglas en un estado de borrador no se ejecutarán en absoluto durante los exámenes de calidad, por lo que no tendrán puntuaciones.
Las columnas y reglas tienen una relación de varios a varios, la misma regla se puede aplicar a muchas columnas y muchas reglas se pueden aplicar a la misma columna. Para ver el patrón de tendencia de cada regla, vea la línea Tendencia en el panel Esquema .
Las tendencias de puntuación de calidad de datos de nivel de recurso están disponibles para las últimas 50 ejecuciones. Esta tendencia de puntuación de calidad ayuda a los administradores de calidad de datos a supervisar las fluctuaciones y tendencias de la calidad de los datos mes a mes. La calidad de los datos también puede desencadenar alertas para cada examen de calidad de datos si la puntuación de calidad no cumple el umbral o las expectativas empresariales.
La puntuación global es el promedio de toda la regla de producción definida en el recurso. La puntuación global de nivel de recurso también se acumula hasta el nivel de producto de datos y el nivel de dominio de gobernanza. La puntuación global está pensada para ser la definición oficial del estado del recurso de datos, el producto de datos y el dominio de gobernanza en el contexto de la calidad de los datos.
Se crea un informe de resumen para las dimensiones de calidad de datos, este informe contiene la puntuación de calidad de los datos para cada dimensión de calidad de datos. La puntuación global del dominio de gobernanza también se publica en este informe. Puede examinar la puntuación de calidad de cada dominio de gobernanza, producto de datos y recurso de datos de este informe de Power BI.
Nota:
Las dimensiones de calidad de datos son términos reconocidos que usan los profesionales de datos para describir una característica de datos que se pueden medir o evaluar con respecto a estándares definidos con el fin de cuantificar el nivel de calidad de los datos que estamos usando para ejecutar nuestra empresa.