Compartir a través de


Cómo obtener linaje de Azure Synapse Analytics en Microsoft Purview

En este documento se explican los pasos necesarios para conectar un área de trabajo de Azure Synapse con una cuenta de Microsoft Purview para realizar un seguimiento del linaje de datos e ingerir orígenes de datos. El documento también incluye los detalles del ámbito de cobertura de actividad y las funcionalidades de linaje admitidas.

Al conectar Azure Synapse Analytics a Microsoft Purview, cada vez que se ejecuta una actividad de canalización compatible, los metadatos sobre los datos de origen de la actividad, los datos de salida y la actividad se ingieren automáticamente en el Mapa de datos de Microsoft Purview.

Si un origen de datos ya se ha examinado y existe en el mapa de datos, el proceso de ingesta agregará la información de linaje de Azure Synapse Analytics a ese origen existente. Si el origen o la salida no existen en el mapa de datos y es compatible con Azure Synapse linaje de Analytics, Microsoft Purview agregará automáticamente sus metadatos de Synapse Analytics al mapa de datos en la colección raíz de dominio predeterminada.

Esta puede ser una excelente manera de supervisar el patrimonio de datos a medida que los usuarios mueven y transforman información mediante Azure Synapse Analytics.

Funcionalidades de Azure Synapse admitidas

Actualmente, Microsoft Purview captura el linaje en tiempo de ejecución de las siguientes actividades de canalización de Azure Synapse:

Importante

Microsoft Purview quita el linaje si el origen o el destino usan un sistema de almacenamiento de datos no compatible.

compatibilidad con actividad de copia

Almacén de datos Compatible
Azure Blob Storage Yes
Azure Cognitive Search Yes
Azure Cosmos DB para NoSQL * Yes
Azure Cosmos DB para MongoDB * Yes
Azure Data Explorer * Yes
Azure Data Lake Storage Gen1 Yes
Azure Data Lake Storage Gen2 Yes
Azure Database for MariaDB * Yes
Azure Database for MySQL * Yes
Azure Database for PostgreSQL * Yes
Azure Files Yes
Azure SQL base de datos * Yes
Azure SQL Managed Instance * Yes
análisis de Azure Synapse * Yes
Grupo de SQL dedicado de Azure (anteriormente SQL DW) * Yes
Azure Table Storage
Amazon S3 Yes
Colmena* Yes
Oráculo* Yes
Tabla de SAP (al conectarse a SAP ECC o SAP S/4HANA) Yes
SQL Server * Yes
Teradata * Yes

* Microsoft Purview no admite actualmente consultas ni procedimientos almacenados para el linaje o el examen. El linaje solo se limita a los orígenes de tabla y vista.

Si usa Integration Runtime autohospedado, tenga en cuenta la versión mínima con compatibilidad con linaje para:

  • Cualquier caso de uso: versión 5.9.7885.3 o posterior
  • Copia de datos de Oracle: versión 5.10 o posterior
  • Copia de datos en Azure Synapse Analytics mediante el comando COPY o PolyBase: versión 5.10 o posterior

Limitaciones en el linaje de la actividad de copia

Actualmente, si usa las siguientes características de actividad de copia, aún no se admite el linaje:

  • Copie los datos en Azure Data Lake Storage Gen1 con formato binario.
  • Configuración de compresión para archivos Binario, texto delimitado, Excel, JSON y XML.
  • Opciones de partición de origen para Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server y SAP Table.
  • Copie los datos en el receptor basado en archivos con el valor de número máximo de filas por archivo.
  • Actualmente, la actividad de copia no admite el linaje de nivel de columna cuando el origen o el receptor están establecidos en los recursos.

Además del linaje, el esquema del recurso de datos (que se muestra en la pestaña Activo -> Esquema) se notifica para los conectores siguientes:

  • Archivos CSV y Parquet en Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 y Amazon S3
  • Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata

compatibilidad con Data Flow

Almacén de datos Compatible
Azure Blob Storage Yes
Azure Cosmos DB para NoSQL * Yes
Azure Data Lake Storage Gen1 Yes
Azure Data Lake Storage Gen2 Yes
Azure Database for MySQL * Yes
Azure Database for PostgreSQL * Yes
Azure SQL base de datos * Yes
Azure SQL Managed Instance * Yes
análisis de Azure Synapse * Yes
Grupo de SQL dedicado de Azure (anteriormente SQL DW) * Yes

* Microsoft Purview no admite actualmente consultas ni procedimientos almacenados para el linaje o el examen. El linaje solo se limita a los orígenes de tabla y vista.

Limitaciones en el linaje del flujo de datos

  • El linaje de flujo de datos puede generar un conjunto de recursos de nivel de carpeta sin visibilidad sobre los archivos implicados.
  • El linaje de nivel de columna no se admite actualmente cuando el origen o el receptor están establecidos en recursos.
  • Para el linaje de la actividad de flujo de datos, Microsoft Purview solo admite mostrar el origen y el receptor implicados. Aún no se admite el linaje detallado para la transformación del flujo de datos.
  • El linaje no se admite cuando los flowlets forman parte del flujo de datos.
  • Actualmente Purview no admite informes de linaje para tablas de Synapse (Base de datos de LakeHouse/Base de datos del área de trabajo)

Acceso a una cuenta de Microsoft Purview protegida

Si su cuenta de Microsoft Purview está protegida por el firewall, obtenga información sobre cómo permitir que Azure Synapse acceda a una cuenta de Microsoft Purview protegida a través de puntos de conexión privados de Microsoft Purview.

Incorporación Azure Synapse linaje a Microsoft Purview

Paso 1: Conectar Azure Synapse área de trabajo a su cuenta de Microsoft Purview

Puede conectar un área de trabajo de Azure Synapse a Microsoft Purview y la conexión permite a Azure Synapse insertar información de linaje en Microsoft Purview. Siga los pasos descritos en Conexión del área de trabajo de Synapse a Microsoft Purview. Varias áreas de trabajo Azure Synapse pueden conectarse a una sola cuenta de Microsoft Purview para el seguimiento holístico del linaje.

Paso 2: Ejecución de la canalización en Azure Synapse área de trabajo

Puede crear canalizaciones con actividad de copia en Azure Synapse área de trabajo. No necesita ninguna otra configuración para la captura de datos de linaje. Los datos de linaje se capturarán automáticamente durante la ejecución de las actividades.

Paso 3: Supervisar el estado de los informes de linaje

Después de ejecutar la canalización de Azure Synapse, en la vista de supervisión de canalización de Synapse, puede comprobar el estado de los informes de linaje seleccionando el siguiente botón Estado de linaje. La misma información también está disponible en la sección JSON>reportLineageToPurvew de salida de actividad.

Supervise el estado de los informes de linaje en la vista de supervisión de canalizaciones.

Paso 4: Ver información de linaje en su cuenta de Microsoft Purview

En su cuenta de Microsoft Purview, puede examinar los recursos y elegir el tipo "Azure Synapse Analytics". También puede buscar en el Data Catalog mediante palabras clave.

Examine los recursos de Azure Synapse en Microsoft Purview.

Seleccione la cuenta de Synapse -> canalización -> actividad, puede ver la información de linaje.

Examine el linaje de canalización de Azure Synapse en Microsoft Purview.

En el portal de gobernanza de Microsoft Purview, puede supervisar los vínculos de Azure Synapse Analytics.

Pasos siguientes

Guía del usuario del linaje del catálogo

Vínculo a Azure Data Share para linaje