Configuración de la conexión del origen de datos para conectar orígenes de datos para la evaluación de la calidad de los datos
Las conexiones del origen de datos configuran la autenticación necesaria para generar perfiles de los datos para la instantánea estadística o examinar los datos en busca de anomalías y puntuaciones de calidad de datos.
La configuración de conexiones de origen de datos es el cuarto paso del ciclo de vida de la calidad de datos de un recurso de datos. Los pasos anteriores son:
- Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado para usar todas las características de calidad de datos.
- Registre y examine un origen de datos en el Mapa de datos de Microsoft Purview.
- Adición del recurso de datos a un producto de datos
Requisitos previos
- Para crear conexiones a recursos de datos, los usuarios deben tener el rol administrador de calidad de datos.
- Necesita al menos acceso de lectura al origen de datos para el que está configurando la conexión.
Orígenes de datos multinube admitidos
- Azure Data Lake Storage Gen2
- Tipos de archivo: Delta Parquet y Parquet
- Base de datos SQL de Azure
- Tejido de patrimonio de datos en OneLake, incluido el acceso directo y el patrimonio de datos de creación de reflejo. El análisis de calidad de datos solo se admite para tablas delta de Lakehouse y archivos parquet.
- Creación de reflejo del patrimonio de datos: Cosmos DB, Snowflake, Azure SQL
- Patrimonio de datos de acceso directo: AWS S3, GCS, AdlsG2
- Azure Synapse sin servidor y almacenamiento de datos
- Unity Catalog para Azure Databricks
- Copo de nieve
- Google Big Query (versión preliminar privada)
Actualmente, Microsoft Purview solo puede ejecutar exámenes de calidad de datos mediante La identidad administrada como opción de autenticación. Los servicios de calidad de datos se ejecutan en Apache Spark 3.4 y Delta Lake 2.4.
Importante
Para acceder a estos orígenes, debe establecer los orígenes de Azure Storage para que tengan un firewall abierto, permitir servicios de Azure de confianza o usar puntos de conexión privados, siga la guía documentada en la guía de configuración de red virtual administrada de calidad de datos.
Configuración de la conexión del origen de datos
En Catálogo unificado, seleccione Administración de estado y, después, Calidad de datos.
Seleccione un dominio de gobernanza en la lista.
En la lista desplegable Administrar, seleccione Connections para abrir la página conexiones.
Seleccione Nuevo para crear una nueva conexión para los productos de datos y los recursos de datos del dominio de gobernanza.
En el panel derecho, escriba la siguiente información:
- Nombre para mostrar
- Descripción
Seleccione Tipo de origen y seleccione uno de los orígenes de datos.
En función del origen de datos, escriba los detalles de acceso.
Si la conexión de prueba se realiza correctamente, envíe la configuración de conexión para completar la configuración de conexión.
Sugerencia
También puede crear una conexión a los recursos mediante puntos de conexión privados y una red virtual administrada Calidad de datos de Microsoft Purview. Para obtener más información, consulte el artículo sobre la red virtual administrada.
Los pasos de configuración de conexión varían según los conectores nativos. Compruebe los pasos de configuración de conexión de los documentos de conectores nativos para configurar la conexión para los conectores de Azure Databricsks, Snowflake, GoogBigQuery y Synapse.
Concesión de permisos de Microsoft Purview en el origen
Ahora que se crea la conexión, para poder examinar orígenes de datos, la identidad administrada de Microsoft Purview necesitará permisos en los orígenes de datos:
Para examinar Azure Data Lake Storage Gen2, el rol de lector de datos de blobs de almacenamiento debe asignarse a Microsoft Purview Managed Identity. Puede seguir los pasos de la página de origen para asignar permisos de identidad administrada.
Para examinar una base de datos de Azure SQL, asigne db_datareader rol a la identidad administrada de Microsoft Purview. Puede seguir los pasos de la página de origen para asignar permisos de identidad administrada.
Contenido relacionado
- Calidad de datos para el patrimonio de datos de Fabric
- Calidad de datos para orígenes de datos reflejados en Fabric
- Orígenes de datos de acceso directo de Calidad de datos para Fabric
- Calidad de datos para Azure Synapse almacenamiento de datos y sin servidor
- Calidad de datos para el catálogo de Azure Databricks Unity
- Calidad de datos para orígenes de datos de Snowflake
- Calidad de datos para Google Big Query
Pasos siguientes
- Configure y ejecute la generación de perfiles de datos para un recurso en el origen de datos.
- Configure reglas de calidad de datos basadas en los resultados de generación de perfiles y aplíquelas al recurso de datos.
- Configure y ejecute un examen de calidad de datos en un producto de datos para evaluar la calidad de todos los recursos admitidos en el producto de datos.
- Revise los resultados del examen para evaluar la calidad de los datos actuales del producto de datos.