Compartir vía


Configuración de la conexión del origen de datos para conectar orígenes de datos para la evaluación de la calidad de los datos

Las conexiones del origen de datos configuran la autenticación necesaria para generar perfiles de los datos para la instantánea estadística o examinar los datos en busca de anomalías y puntuaciones de calidad de datos.

La configuración de conexiones de origen de datos es el cuarto paso del ciclo de vida de la calidad de datos de un recurso de datos. Los pasos anteriores son:

  1. Asigne a los usuarios permisos de administrador de calidad de datos en Catálogo unificado para usar todas las características de calidad de datos.
  2. Registre y examine un origen de datos en el Mapa de datos de Microsoft Purview.
  3. Adición del recurso de datos a un producto de datos

Requisitos previos

  1. Para crear conexiones a recursos de datos, los usuarios deben tener el rol administrador de calidad de datos.
  2. Necesita al menos acceso de lectura al origen de datos para el que está configurando la conexión.

Orígenes de datos multinube admitidos

  • Azure Data Lake Storage Gen2
    • Tipos de archivo: Delta Parquet y Parquet
  • Base de datos SQL de Azure
  • Tejido de patrimonio de datos en OneLake, incluido el acceso directo y el patrimonio de datos de creación de reflejo. El análisis de calidad de datos solo se admite para tablas delta de Lakehouse y archivos parquet.
    • Creación de reflejo del patrimonio de datos: Cosmos DB, Snowflake, Azure SQL
    • Patrimonio de datos de acceso directo: AWS S3, GCS, AdlsG2
  • Azure Synapse sin servidor y almacenamiento de datos
  • Unity Catalog para Azure Databricks
  • Copo de nieve
  • Google Big Query (versión preliminar privada)

Actualmente, Microsoft Purview solo puede ejecutar exámenes de calidad de datos mediante La identidad administrada como opción de autenticación. Los servicios de calidad de datos se ejecutan en Apache Spark 3.4 y Delta Lake 2.4.

Importante

Para acceder a estos orígenes, debe establecer los orígenes de Azure Storage para que tengan un firewall abierto, permitir servicios de Azure de confianza o usar puntos de conexión privados, siga la guía documentada en la guía de configuración de red virtual administrada de calidad de datos.

Configuración de la conexión del origen de datos

  1. En Catálogo unificado, seleccione Administración de estado y, después, Calidad de datos.

  2. Seleccione un dominio de gobernanza en la lista.

  3. En la lista desplegable Administrar, seleccione Connections para abrir la página conexiones.

    Captura de pantalla de la página conexiones de Calidad de datos de Microsoft Purview.

  4. Seleccione Nuevo para crear una nueva conexión para los productos de datos y los recursos de datos del dominio de gobernanza.

    Captura de pantalla de la página configurar la conexión en Calidad de datos de Microsoft Purview.

  5. En el panel derecho, escriba la siguiente información:

    • Nombre para mostrar
    • Descripción
  6. Seleccione Tipo de origen y seleccione uno de los orígenes de datos.

  7. En función del origen de datos, escriba los detalles de acceso.

  8. Si la conexión de prueba se realiza correctamente, envíe la configuración de conexión para completar la configuración de conexión.

Sugerencia

También puede crear una conexión a los recursos mediante puntos de conexión privados y una red virtual administrada Calidad de datos de Microsoft Purview. Para obtener más información, consulte el artículo sobre la red virtual administrada.

Los pasos de configuración de conexión varían según los conectores nativos. Compruebe los pasos de configuración de conexión de los documentos de conectores nativos para configurar la conexión para los conectores de Azure Databricsks, Snowflake, GoogBigQuery y Synapse.

Concesión de permisos de Microsoft Purview en el origen

Ahora que se crea la conexión, para poder examinar orígenes de datos, la identidad administrada de Microsoft Purview necesitará permisos en los orígenes de datos:

Pasos siguientes

  1. Configure y ejecute la generación de perfiles de datos para un recurso en el origen de datos.
  2. Configure reglas de calidad de datos basadas en los resultados de generación de perfiles y aplíquelas al recurso de datos.
  3. Configure y ejecute un examen de calidad de datos en un producto de datos para evaluar la calidad de todos los recursos admitidos en el producto de datos.
  4. Revise los resultados del examen para evaluar la calidad de los datos actuales del producto de datos.