Administración de la calidad de los datos para elementos de datos críticos (versión preliminar)
Los elementos de datos críticos (CDE) son una agrupación lógica de columnas importantes en las tablas de los orígenes de datos que le permiten centrar estratégicamente los esfuerzos de gobernanza donde tendrá más efecto.
Calidad de datos de Microsoft Purview ofrece una solución integrada para medir la calidad de los elementos de datos críticos (CDE), lo que permite a las organizaciones asegurarse de que estos elementos de datos clave cumplen los estándares necesarios para la precisión, integridad, coherencia e integridad.
Las organizaciones pueden establecer umbrales de calidad específicos que los CDE deben cumplir para mantener su calidad. Esos umbrales se aplican en el nivel lógico de CDE, pero se reducen a todas las columnas individuales que componen el CDE. Estas reglas pueden abarcar varios aspectos de la calidad de los datos, como la validación, la limpieza, la estandarización y el enriquecimiento. Por ejemplo: las reglas de calidad de datos pueden especificar que las direcciones de los clientes se deben estandarizar con un formato específico, o que los identificadores de empleado deben cumplir un patrón determinado.
Una vez que se aplican reglas de calidad de datos a las CDE, Calidad de datos de Microsoft Purview evalúa sistemáticamente los elementos de datos físicos subyacentes para evaluar su cumplimiento con estas reglas. Al usar el enfoque integrado de Purview Data Quality, las organizaciones pueden supervisar y administrar de forma proactiva la calidad de sus elementos de datos críticos, lo que garantiza que sigan siendo confiables, precisos y adecuados para fines concretos. Esto no solo mejora los procesos de toma de decisiones, sino que también ayuda a mitigar los riesgos asociados a errores de datos o incoherencias, lo que, en última instancia, conduce a mejores resultados empresariales.
Tipos de recursos admitidos
- Azure Data Lake Storage (ADLS Gen2)
- Tipos de archivo: Delta y Parquet
- Base de datos SQL de Azure
- El patrimonio de datos de Fabric en OneLake incluye acceso directo y creación de reflejo del patrimonio de datos. El análisis de calidad de datos solo se admite para tablas delta de Lakehouse y archivos parquet.
- Patrimonio de datos de creación de reflejo: CosmosDB, Snowflake, Azure SQL
- Patrimonio de datos de acceso directo: AWS S3, GCS, AdlsG2 y dataverse
- Azure Synapse sin servidor y almacenamiento de datos
- Unity Catalog para Azure Databricks
- Copo de nieve
- Google Big Query (versión preliminar privada)
Reglas de calidad de datos disponibles para CDE
Calidad de datos de Microsoft Purview habilita la configuración de las reglas siguientes para los CDE. La selección de una regla le llevará al artículo reglas generales de calidad de datos para obtener más información.
Rule | Definición |
---|---|
Valores únicos | Confirma que los valores de una columna son únicos. |
Coincidencia del tipo de datos | Confirma que los valores de una columna coinciden con sus requisitos de tipo de datos. |
Campos vacíos o en blanco | Busca campos vacíos y en blanco en una columna donde debería haber valores. |
Configuración de la calidad de los datos para CDE
Si aún no lo ha hecho, cree un elemento de datos crítico (CDE) y agregue columnas.
Abra el CDE mediante:
- Abra Catálogo unificado de Microsoft Purview y seleccione la lista desplegable Administración de datos y el submenú Dominios de gobernanza.
- Seleccione un dominio de gobernanza en la lista.
- Seleccione el icono Elementos de datos críticos .
- Seleccione un elemento de datos crítico de la lista.
Seleccione la pestaña Calidad de datos en el elemento de datos crítico.
Agregue una nueva regla al elemento de datos crítico seleccionando Nueva regla.
Seleccione el tipo de regla de calidad de datos que desea usar y seleccione Siguiente.
Proporcione los detalles necesarios para el tipo de regla.
Elija si desea activar o desactivar la regla.
Seleccione Crear.
Ejecución de reglas de calidad de datos para CDE
Cuando se ejecuta un examen de calidad de datos para un recurso de datos disponible que tiene una columna asociada a un CDE, las reglas de calidad de datos que ha configurado para ese CDE generarán una puntuación.
Programe o ejecute un examen de calidad de datos para los recursos de datos asociados al CDE.
Supervise el progreso del trabajo de examen de calidad de datos a medida que se ejecuta, asegurándose de que se completa sin errores ni interrupciones. Compruebe que las reglas de calidad de datos aplicadas se ejecutaron correctamente desde la instantánea del historial.
Revise los resultados del trabajo de examen para evaluar la calidad del recurso de datos de CDE en función de las reglas aplicadas.
Analice los resultados del trabajo de examen de calidad de datos para identificar cualquier problema, anomalía o área de mejora relacionada con el recurso de datos de CDE. Esto podría implicar la limpieza, estandarización o enriquecimiento de los datos para mejorar su calidad.