Configuración y ejecución de la generación de perfiles de datos para un recurso de datos
La generación de perfiles de datos es el proceso de examinar los datos disponibles en diferentes orígenes de datos y recopilar estadísticas e información sobre estos datos. La generación de perfiles de datos ayuda a evaluar el nivel de calidad de los datos según un conjunto definido de objetivos. Si los datos son de mala calidad o se administran en estructuras que no se pueden integrar para satisfacer las necesidades de la empresa, los procesos empresariales y la toma de decisiones se ven afectados. La generación de perfiles de datos le permite comprender la confiabilidad y la calidad de los datos, que es un requisito previo para tomar decisiones basadas en datos que impulsen los ingresos y fomenten el crecimiento.
Requisitos previos
- Para ejecutar y programar exámenes de evaluación de la calidad de los datos, los usuarios deben tener el rol administrador de calidad de datos.
- Actualmente, la cuenta de Microsoft Purview se puede establecer para permitir el acceso público o el acceso administrado a la red virtual para que se puedan ejecutar exámenes de calidad de datos.
Ciclo de vida de la calidad de datos
La generación de perfiles de datos es el quinto paso del ciclo de vida de la calidad de datos de un recurso de datos. Los pasos anteriores son:
- Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado para usar todas las características de calidad de datos.
- Registre y examine un origen de datos en el Mapa de datos de Microsoft Purview.
- Adición del recurso de datos a un producto de datos
- Configure una conexión de origen de datos para preparar el origen para la evaluación de la calidad de los datos.
Orígenes de datos multinube admitidos
- Azure Data Lake Storage (ADLS Gen2)
- Tipos de archivo: Delta Parquet y Parquet
- Base de datos SQL de Azure
- El patrimonio de datos de Fabric en OneLake incluye acceso directo y creación de reflejo del patrimonio de datos. La generación de perfiles de datos solo se admite para tablas delta de Lakehouse y archivos parquet.
- Creación de reflejo del patrimonio de datos: Cosmos DB, Snowflake, Azure SQL
- Patrimonio de datos de acceso directo: AWS S3, GCS, AdlsG2 y Dataverse
- Azure Synapse sin servidor y almacenamiento de datos
- Unity Catalog para Azure Databricks
- Copo de nieve
- Google Big Query (versión preliminar privada)
Importante
Data Quality for Parquet file está diseñado para admitir:
- Directorio con el archivo de elementos de Parquet. Por ejemplo: ./Sales/{Parquet Part Files}. El nombre completo debe seguir
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
. Asegúrese de que no tenemos patrones {n} en la estructura de directorios o subdirectorio, sino que debe ser un FQN directo que conduce a {SparkPartitions}. - Directorio con archivos Parquet con particiones, con particiones por columnas dentro del conjunto de datos, como los datos de ventas particionados por año y mes. Por ejemplo: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
Se admiten ambos escenarios esenciales que presentan un esquema de conjunto de datos de Parquet coherente.
Limitación: No está diseñado para o no admitirá N jerarquías arbitrarias de directorios con archivos Parquet.
Recomendamos al cliente que presente datos en (1) o (2) estructura construida.
Métodos de autenticación compatibles
Actualmente, Microsoft Purview solo puede ejecutar exámenes de calidad de datos mediante La identidad administrada como opción de autenticación. Los servicios de calidad de datos se ejecutan en Apache Spark 3.4 y Delta Lake 2.4. Para obtener más información sobre las regiones admitidas, consulte información general sobre la calidad de los datos.
Importante
Si el esquema se actualiza en el origen de datos, es necesario volver a ejecutar el examen del mapa de datos antes de ejecutar una generación de perfiles de datos.
Pasos para configurar el trabajo de generación de perfiles de datos
Configure una conexión de origen de datos al recurso si aún no ha creado una.
En Catálogo unificado de Microsoft Purview, seleccione el menú Administración de estado y el submenú Calidad de datos.
En el submenú calidad de datos, seleccione el dominio de gobernanza para la generación de perfiles de datos.
Seleccione un producto de datos para generar perfiles de un recurso de datos vinculado a ese producto.
Seleccione un recurso de datos para navegar a la página de información general sobre la calidad de los datos para la generación de perfiles.
Seleccione el botón Perfil para ejecutar el trabajo de generación de perfiles para el recurso de datos seleccionado.
El motor de recomendaciones de inteligencia artificial sugiere columnas potencialmente importantes para ejecutar la generación de perfiles de datos. Puede anular la selección de las columnas recomendadas o seleccionar más columnas para generar perfiles.
Una vez que haya seleccionado las columnas pertinentes, seleccione Perfil de ejecución.
Mientras se ejecuta el trabajo, puede realizar un seguimiento de su progreso desde la página de supervisión de la calidad de los datos en el dominio de gobernanza.
Una vez completado el trabajo, seleccione la pestaña Perfil en el menú izquierdo de la página de calidad de datos del recurso para examinar el resultado de la generación de perfiles y la instantánea estadística. Puede haber varias páginas de resultados de perfil en función del número de columnas que tengan los recursos de datos.
Examine los resultados de generación de perfiles y las medidas estadísticas de cada columna.
Importante
El formato delta se detecta principalmente automáticamente si el formato es estándar y correcto en los sistemas de origen. Para generar perfiles del formato de archivo Parquet o iceberg, debe cambiar el tipo de recurso de datos a Parquet o iceberg. Como se muestra en la captura de pantalla siguiente, cambie el tipo de recurso de datos predeterminado Parquet u otro formato compatible si el formato del archivo de recursos de datos no es delta. Este cambio debe realizarse antes de configurar el trabajo de generación de perfiles.
Contenido relacionado
- Calidad de datos para el patrimonio de datos de Fabric
- Calidad de datos para orígenes de datos reflejados en Fabric
- Orígenes de datos de acceso directo de Calidad de datos para Fabric
- Calidad de datos para Azure Synapse almacenamiento de datos y sin servidor
- Calidad de datos para el catálogo de Azure Databricks Unity
- Calidad de datos para orígenes de datos de Snowflake
- Calidad de datos para Google Big Query
Pasos siguientes
- Configure reglas de calidad de datos basadas en los resultados de generación de perfiles y aplíquelas al recurso de datos.
- Configure y ejecute un examen de calidad de datos en un producto de datos para evaluar la calidad de todos los recursos admitidos en el producto de datos.
- Revise los resultados del examen para evaluar la calidad de los datos actuales del producto de datos.