Cómo obtener linaje de Azure Synapse Analytics en Microsoft Purview
En este documento se explican los pasos necesarios para conectar un área de trabajo de Azure Synapse con una cuenta de Microsoft Purview para realizar un seguimiento del linaje de datos e ingerir orígenes de datos. El documento también incluye los detalles del ámbito de cobertura de actividad y las funcionalidades de linaje admitidas.
Al conectar Azure Synapse Analytics a Microsoft Purview, cada vez que se ejecuta una actividad de canalización compatible, los metadatos sobre los datos de origen de la actividad, los datos de salida y la actividad se ingieren automáticamente en el Mapa de datos de Microsoft Purview.
Si un origen de datos ya se ha examinado y existe en el mapa de datos, el proceso de ingesta agregará la información de linaje de Azure Synapse Analytics a ese origen existente. Si el origen o la salida no existen en el mapa de datos y es compatible con Azure Synapse linaje de Analytics, Microsoft Purview agregará automáticamente sus metadatos de Synapse Analytics al mapa de datos en la colección raíz de dominio predeterminada.
Esta puede ser una excelente manera de supervisar el patrimonio de datos a medida que los usuarios mueven y transforman información mediante Azure Synapse Analytics.
Funcionalidades de Azure Synapse admitidas
Actualmente, Microsoft Purview captura el linaje en tiempo de ejecución de las siguientes actividades de canalización de Azure Synapse:
Importante
Microsoft Purview quita el linaje si el origen o el destino usan un sistema de almacenamiento de datos no compatible.
compatibilidad con actividad de copia
Almacén de datos | Compatible |
---|---|
Azure Blob Storage | Yes |
Azure Cognitive Search | Yes |
Azure Cosmos DB para NoSQL * | Yes |
Azure Cosmos DB para MongoDB * | Yes |
Azure Data Explorer * | Yes |
Azure Data Lake Storage Gen1 | Yes |
Azure Data Lake Storage Gen2 | Yes |
Azure Database for MariaDB * | Yes |
Azure Database for MySQL * | Yes |
Azure Database for PostgreSQL * | Yes |
Azure Files | Yes |
Azure SQL base de datos * | Yes |
Azure SQL Managed Instance * | Yes |
análisis de Azure Synapse * | Yes |
Grupo de SQL dedicado de Azure (anteriormente SQL DW) * | Yes |
Azure Table Storage | Sí |
Amazon S3 | Yes |
Colmena* | Yes |
Oráculo* | Yes |
Tabla de SAP (al conectarse a SAP ECC o SAP S/4HANA) | Yes |
SQL Server * | Yes |
Teradata * | Yes |
* Microsoft Purview no admite actualmente consultas ni procedimientos almacenados para el linaje o el examen. El linaje solo se limita a los orígenes de tabla y vista.
Si usa Integration Runtime autohospedado, tenga en cuenta la versión mínima con compatibilidad con linaje para:
- Cualquier caso de uso: versión 5.9.7885.3 o posterior
- Copia de datos de Oracle: versión 5.10 o posterior
- Copia de datos en Azure Synapse Analytics mediante el comando COPY o PolyBase: versión 5.10 o posterior
Limitaciones en el linaje de la actividad de copia
Actualmente, si usa las siguientes características de actividad de copia, aún no se admite el linaje:
- Copie los datos en Azure Data Lake Storage Gen1 con formato binario.
- Configuración de compresión para archivos Binario, texto delimitado, Excel, JSON y XML.
- Opciones de partición de origen para Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server y SAP Table.
- Copie los datos en el receptor basado en archivos con el valor de número máximo de filas por archivo.
- Actualmente, la actividad de copia no admite el linaje de nivel de columna cuando el origen o el receptor están establecidos en los recursos.
Además del linaje, el esquema del recurso de datos (que se muestra en la pestaña Activo -> Esquema) se notifica para los conectores siguientes:
- Archivos CSV y Parquet en Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 y Amazon S3
- Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata
compatibilidad con Data Flow
Almacén de datos | Compatible |
---|---|
Azure Blob Storage | Yes |
Azure Cosmos DB para NoSQL * | Yes |
Azure Data Lake Storage Gen1 | Yes |
Azure Data Lake Storage Gen2 | Yes |
Azure Database for MySQL * | Yes |
Azure Database for PostgreSQL * | Yes |
Azure SQL base de datos * | Yes |
Azure SQL Managed Instance * | Yes |
análisis de Azure Synapse * | Yes |
Grupo de SQL dedicado de Azure (anteriormente SQL DW) * | Yes |
* Microsoft Purview no admite actualmente consultas ni procedimientos almacenados para el linaje o el examen. El linaje solo se limita a los orígenes de tabla y vista.
Limitaciones en el linaje del flujo de datos
- El linaje de flujo de datos puede generar un conjunto de recursos de nivel de carpeta sin visibilidad sobre los archivos implicados.
- El linaje de nivel de columna no se admite actualmente cuando el origen o el receptor están establecidos en recursos.
- Para el linaje de la actividad de flujo de datos, Microsoft Purview solo admite mostrar el origen y el receptor implicados. Aún no se admite el linaje detallado para la transformación del flujo de datos.
- El linaje no se admite cuando los flowlets forman parte del flujo de datos.
- Actualmente Purview no admite informes de linaje para tablas de Synapse (Base de datos de LakeHouse/Base de datos del área de trabajo)
Acceso a una cuenta de Microsoft Purview protegida
Si su cuenta de Microsoft Purview está protegida por el firewall, obtenga información sobre cómo permitir que Azure Synapse acceda a una cuenta de Microsoft Purview protegida a través de puntos de conexión privados de Microsoft Purview.
Incorporación Azure Synapse linaje a Microsoft Purview
Paso 1: Conectar Azure Synapse área de trabajo a su cuenta de Microsoft Purview
Puede conectar un área de trabajo de Azure Synapse a Microsoft Purview y la conexión permite a Azure Synapse insertar información de linaje en Microsoft Purview. Siga los pasos descritos en Conexión del área de trabajo de Synapse a Microsoft Purview. Varias áreas de trabajo Azure Synapse pueden conectarse a una sola cuenta de Microsoft Purview para el seguimiento holístico del linaje.
Paso 2: Ejecución de la canalización en Azure Synapse área de trabajo
Puede crear canalizaciones con actividad de copia en Azure Synapse área de trabajo. No necesita ninguna otra configuración para la captura de datos de linaje. Los datos de linaje se capturarán automáticamente durante la ejecución de las actividades.
Paso 3: Supervisar el estado de los informes de linaje
Después de ejecutar la canalización de Azure Synapse, en la vista de supervisión de canalización de Synapse, puede comprobar el estado de los informes de linaje seleccionando el siguiente botón Estado de linaje. La misma información también está disponible en la sección JSON>reportLineageToPurvew
de salida de actividad.
Paso 4: Ver información de linaje en su cuenta de Microsoft Purview
En su cuenta de Microsoft Purview, puede examinar los recursos y elegir el tipo "Azure Synapse Analytics". También puede buscar en el Data Catalog mediante palabras clave.
Seleccione la cuenta de Synapse -> canalización -> actividad, puede ver la información de linaje.
Supervisión de los vínculos de Azure Synapse Analytics
En el portal de gobernanza de Microsoft Purview, puede supervisar los vínculos de Azure Synapse Analytics.