Compartir a través de


Calidad de los datos para el almacenamiento de datos y sin servidor de Microsoft Synapse

Azure Synapse Analytics es un servicio de análisis empresarial que acelera el tiempo de información entre los almacenes de datos y los sistemas de macrodatos. Reúne las mejores tecnologías sql que se usan en el almacenamiento de datos empresariales, las tecnologías de Apache Spark para macrodatos y Azure Data Explorer para el análisis de registros y series temporales.

Azure Synapse es un servicio de análisis sin límites que reúne el almacenamiento de datos empresariales y el análisis de macrodatos. Proporciona la libertad de consultar datos en sus términos, mediante recursos sin servidor o dedicados a escala, para obtener más información sobre Azure Synapse revisar la documentación de Fabric.

Ejemplo de área de trabajo de Synapse con una instancia de Dedicated Synapse Data Warehouse (DWH) Table EMPLOYEE y una base de datos sin servidor (SQL_ON_DEMAND) con la tabla SynapseSalesDelta.

Captura de pantalla del área de trabajo de Synapse Analytics.

Una vez examinados, los recursos están disponibles en Microsoft Purview. A continuación se muestra un ejemplo de una tabla de empleados en una instancia dedicada de Synapse Analytics.

análisis de Azure Synapse dedicado (Data Warehouse)

Configuración del examen del mapa de datos

Para examinar Azure Synapse Analytics Dedicado (Data Warehouse) siga la documentación: y para conceder los permisos de MI necesarios en la instancia de DWH dedicada, siga la documentación.

Captura de pantalla de la configuración del examen del mapa de datos.

Una vez examinados, los recursos están disponibles en el catálogo de Microsoft Purview. A continuación se muestra un ejemplo de una tabla de empleados en una instancia dedicada de Synapse Analytics.

Captura de pantalla del resultado del examen del mapa de datos.

Configuración de la conexión al almacenamiento de datos dedicado de Synapse

En este punto, tenemos el recurso escaneado listo para la catalogación y la gobernanza. Asocie el recurso examinado al producto de datos en una sele de dominio de gobernanza. En la pestaña Calidad de datos, agregue un nuevo Azure SQL Conexión a la base de datos: escriba manualmente el nombre de la base de datos.

  1. Seleccione la pestaña Administración de dominios > de gobernanza de calidad > de datos para crear la conexión.

    Captura de pantalla de cómo configurar la conexión.

  2. Configure la conexión en la página de conexión.

    • Agregue el nombre y la descripción de la conexión.
    • Seleccione el tipo de origen Azure Synapse Analytics.
    • Seleccione Suscripción de Azure.
    • Seleccione Nombre del área de trabajo.
    • Seleccione Punto de conexión de SQL dedicado.
    • Seleccione punto de conexión de SQL sin servidor.
    • Seleccione Tipo de punto de conexión.
    • Seleccione Base de datos.
    • Agregue MSI como credencial.

    Captura de pantalla de cómo configurar la conexión del origen de datos.

  3. Pruebe la conexión. Después de configurar la conexión del origen de datos y probarla correctamente, puede continuar con la configuración y ejecución de exámenes de generación de perfiles de datos y calidad de datos.

  4. Si el origen de datos de Synapse se encuentra detrás de un punto de conexión privado, debe habilitar la red virtual administrada. Siga el documento sobre cómo configurar la red virtual administrada.

Importante

Los administradores de calidad de datos necesitan acceso de solo lectura al almacenamiento de datos dedicado de Synapse para configurar la conexión de calidad de datos. En el caso de la configuración de red virtual administrada, no podrá probar la conexión.

Generación de perfiles y análisis de calidad de datos para datos en el almacenamiento de datos dedicado de Synapse

Una vez completada correctamente la configuración de la conexión, puede generar perfiles, crear y aplicar reglas y ejecutar el examen de DQ de los datos en el almacén de Synapse. Siga la guía paso a paso que se describe en los documentos siguientes:

Importante

  • El rendimiento de las consultas e incluso sus ejecuciones correctas dependen de la configuración de DW que tengan los clientes para sus instancias de base de datos dedicadas.
  • Los trabajos de evaluación de DQ respectivos o, en ese caso, cualquier otro trabajo de DQ induce una conexión en dedicated DW y puede producir un error si la instancia está aprovisionada o produce un error en los límites de simultaneidad, los clientes deben tener en cuenta la configuración de DW. Su simultaneidad tiene límites muy estrictos para cualquier instancia en el tiempo.
  • Los límites de simultaneidad pueden dar lugar a la terminación del trabajo. Los límites de DW (como 1000 DW) proporcionan la capacidad de ejecutar las consultas.
  • La compatibilidad con redes virtuales está en versión preliminar con compatibilidad con la calificación de disponibilidad general.

Azure Synapse Analytics sin servidor

Configuración del examen de mapa de datos

Para examinar Azure Synapse Analytics sin servidor, siga la documentación: y para conceder los permisos de MI necesarios en la instancia de DWH dedicada, siga la documentación. Una vez examinados, los recursos sin servidor están disponibles en el catálogo de Microsoft Purview.

Captura de pantalla de la configuración del examen del mapa de datos para sin servidor.

Configuración de la conexión a synapse sin servidor

En este punto, tenemos el recurso escaneado listo para la catalogación y la gobernanza. Asocie el recurso examinado al producto de datos en una sele de dominio de gobernanza. En Calidad de datos, agregue un nuevo Azure SQL Conexión de base de datos: obtenga manualmente el nombre de la base de datos.

  1. Seleccione la pestañaAdministraciónde dominios> de gobernanza de calidad> de datos para crear la conexión.

    Captura de pantalla de cómo configurar la conexión.

  2. Configure la conexión en la página de conexión.

    • Agregue el nombre y la descripción de la conexión.
    • Seleccione el tipo de origen Azure Synapse Analytics.
    • Seleccione Suscripción de Azure.
    • Seleccione Nombre del área de trabajo.
    • Seleccione Punto de conexión de SQL dedicado.
    • Seleccione punto de conexión de SQL sin servidor.
    • Seleccione Tipo de punto de conexión.
    • Seleccione Base de datos.
    • Agregue MSI como credencial.

    Captura de pantalla de cómo configurar la conexión del origen de datos para Synapse sin servidor.

  3. Pruebe la conexión. Después de configurar la conexión del origen de datos y probarla correctamente, puede continuar con la configuración y ejecución de exámenes de generación de perfiles de datos y calidad de datos.

  4. Si el origen de datos de Synapse se encuentra detrás de un punto de conexión privado, debe habilitar la red virtual administrada. Siga el documento sobre cómo configurar la red virtual administrada.

Importante

  • Los administradores de calidad de datos necesitan acceso de solo lectura al almacenamiento de datos dedicado de Synapse para configurar la conexión de calidad de datos.
  • En la configuración sin servidor de Synapse, la tabla externa apunta a los datos con formato Delta almacenados en ADLS Gen2.
  • La compatibilidad con vNet está en versión preliminar cerrada. Póngase en contacto con el equipo de ventas de Purview para permitir la lista de inquilinos para la versión preliminar cerrada.
  • Synapse Connector solo detecta y admite sql.azuresynapse.net. Si el nombre completo (FQN) generado por el examen de Data Mmap contiene database.windows.net, se producirá un error en la conexión de Synapse para el examen de DQ.

Generación de perfiles y análisis de calidad de datos (DQ) para buscar datos en Synapse sin servidor

Una vez completada correctamente la configuración de la conexión, puede generar perfiles, crear y aplicar reglas y ejecutar el examen de calidad de datos (DQ) de los datos en el almacenamiento de Synapse. Siga la guía paso a paso que se describe en los documentos siguientes:

Importante

  • Las evaluaciones de DQ, la generación de perfiles se ejecutan en Spark en segundo plano, los clientes tendrán varias conexiones donde cada nodo de Spark tendrá un SPID de conexión, por lo que DWH puede encontrarse con límites de consulta actuales si se usan o programan más allá de los límites de DW, lo que produce errores. Pero para Azure Synapse tabla SQL sin servidor: no se aplican estos límites de simultaneidad; depende totalmente de las optimizaciones de parquet delta sin servidor que los clientes tienen en su instancia de ADLS Gen2. El motor se puede considerar que la resonación estrecha de Databricks Serverless DW funciona en orígenes externos de Lakehouse, como tablas de formato DELTA.

Documentos de referencia