Comment obtenir la traçabilité de Azure Synapse Analytics dans Microsoft Purview
Ce document décrit les étapes nécessaires pour connecter un espace de travail Azure Synapse avec un compte Microsoft Purview afin de suivre la traçabilité des données et d’ingérer des sources de données. Le document présente également les détails de l’étendue de couverture de l’activité et des fonctionnalités de traçabilité prises en charge.
Lorsque vous connectez Azure Synapse Analytics à Microsoft Purview, chaque fois qu’une activité de pipeline prise en charge est exécutée, les métadonnées relatives aux données sources de l’activité, aux données de sortie et à l’activité sont automatiquement ingérées dans le Mappage de données Microsoft Purview.
Si une source de données a déjà été analysée et existe dans le mappage de données, le processus d’ingestion ajoute les informations de traçabilité de Azure Synapse Analytics à cette source existante. Si la source ou la sortie n’existe pas dans le mappage de données et qu’elle est prise en charge par la traçabilité Azure Synapse Analytics, Microsoft Purview ajoute automatiquement les métadonnées de Synapse Analytics dans le mappage de données sous la collection racine de domaine par défaut.
Cela peut être un excellent moyen de surveiller votre patrimoine de données à mesure que les utilisateurs déplacent et transforment des informations à l’aide de Azure Synapse Analytics.
Fonctionnalités de Azure Synapse prises en charge
Actuellement, Microsoft Purview capture la traçabilité du runtime à partir des activités de pipeline Azure Synapse suivantes :
Importante
Microsoft Purview supprime la traçabilité si la source ou la destination utilise un système de stockage de données non pris en charge.
activité Copy prise en charge
Magasin de données | Pris en charge |
---|---|
Stockage Blob Azure | Oui |
Recherche cognitive Azure | Oui |
Azure Cosmos DB for NoSQL * | Oui |
Azure Cosmos DB for MongoDB * | Oui |
Azure Data Explorer * | Oui |
Azure Data Lake Storage Gen1 | Oui |
Azure Data Lake Storage Gen2 | Oui |
Azure Database for MariaDB * | Oui |
Azure Database pour MySQL * | Oui |
Azure Database pour PostgreSQL * | Oui |
Azure Files | Oui |
base de données Azure SQL * | Oui |
Azure SQL Managed Instance * | Oui |
Azure Synapse Analytics * | Oui |
Pool SQL dédié Azure (anciennement SQL DW) * | Oui |
Stockage Table Azure | Oui |
Amazon S3 | Oui |
Ruche* | Oui |
Oracle* | Oui |
Table SAP (lors de la connexion à SAP ECC ou SAP S/4HANA) | Oui |
SQL Server * | Oui |
Teradata * | Oui |
* Actuellement, Microsoft Purview ne prend pas en charge la requête ou la procédure stockée pour la traçabilité ou l’analyse. La traçabilité est limitée aux sources de table et de vue uniquement.
Si vous utilisez des Integration Runtime auto-hébergés, notez la version minimale avec prise en charge de la traçabilité pour :
- Tout cas d’usage : version 5.9.7885.3 ou ultérieure
- Copie de données à partir d’Oracle : version 5.10 ou ultérieure
- Copie de données dans Azure Synapse Analytics via la commande COPY ou PolyBase : version 5.10 ou ultérieure
Limitations relatives à la traçabilité de l’activité de copie
Actuellement, si vous utilisez les fonctionnalités d’activité de copie suivantes, la traçabilité n’est pas encore prise en charge :
- Copiez des données dans Azure Data Lake Storage Gen1 à l’aide du format binaire.
- Paramètre de compression pour les fichiers Binaire, texte délimité, Excel, JSON et XML.
- Options de partition source pour Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server et SAP Table.
- Copiez des données dans un récepteur basé sur un fichier avec la définition du nombre maximal de lignes par fichier.
- La traçabilité au niveau de la colonne n’est actuellement pas prise en charge par l’activité de copie lorsque la source/récepteur est un jeu de ressources.
En plus de la traçabilité, le schéma de ressource de données (affiché dans l’onglet Ressource -> Schéma) est signalé pour les connecteurs suivants :
- Fichiers CSV et Parquet sur Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 et Amazon S3
- Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata
Data Flow prise en charge
Magasin de données | Pris en charge |
---|---|
Stockage Blob Azure | Oui |
Azure Cosmos DB for NoSQL * | Oui |
Azure Data Lake Storage Gen1 | Oui |
Azure Data Lake Storage Gen2 | Oui |
Azure Database pour MySQL * | Oui |
Azure Database pour PostgreSQL * | Oui |
base de données Azure SQL * | Oui |
Azure SQL Managed Instance * | Oui |
Azure Synapse Analytics * | Oui |
Pool SQL dédié Azure (anciennement SQL DW) * | Oui |
* Actuellement, Microsoft Purview ne prend pas en charge la requête ou la procédure stockée pour la traçabilité ou l’analyse. La traçabilité est limitée aux sources de table et de vue uniquement.
Limitations de la traçabilité des flux de données
- La traçabilité du flux de données peut générer un jeu de ressources au niveau du dossier sans visibilité sur les fichiers impliqués.
- La traçabilité au niveau de la colonne n’est actuellement pas prise en charge lorsque la source/le récepteur est un jeu de ressources.
- Pour la traçabilité de l’activité de flux de données, Microsoft Purview prend uniquement en charge l’affichage de la source et du récepteur impliqués. La traçabilité détaillée pour la transformation de flux de données n’est pas encore prise en charge.
- La traçabilité n’est pas prise en charge lorsque les flowlets font partie du flux de données.
- Actuellement, Purview ne prend pas en charge les rapports de traçabilité pour les tables Synapse (base de données LakeHouse DB/Workspace)
Accéder au compte Microsoft Purview sécurisé
Si votre compte Microsoft Purview est protégé par un pare-feu, découvrez comment Azure Synapse accéder à un compte Microsoft Purview sécurisé via des points de terminaison privés Microsoft Purview.
Intégrer Azure Synapse traçabilité dans Microsoft Purview
Étape 1 : Connecter Azure Synapse espace de travail à votre compte Microsoft Purview
Vous pouvez connecter un espace de travail Azure Synapse à Microsoft Purview, et la connexion permet Azure Synapse d’envoyer des informations de traçabilité à Microsoft Purview. Suivez les étapes décrites dans Connecter l’espace de travail Synapse à Microsoft Purview. Plusieurs espaces de travail Azure Synapse peuvent se connecter à un seul compte Microsoft Purview pour un suivi de traçabilité holistique.
Étape 2 : Exécuter le pipeline dans Azure Synapse espace de travail
Vous pouvez créer des pipelines avec activité Copy dans Azure Synapse espace de travail. Vous n’avez pas besoin d’une autre configuration pour la capture des données de traçabilité. Les données de traçabilité sont automatiquement capturées pendant l’exécution des activités.
Étape 3 : Surveiller les status de rapports de traçabilité
Après avoir exécuté le pipeline Azure Synapse, dans la vue de supervision du pipeline Synapse, vous pouvez case activée le status de rapports de traçabilité en sélectionnant le bouton status de traçabilité suivant. Les mêmes informations sont également disponibles dans la section JSON de sortie de>reportLineageToPurvew
l’activité.
Étape 4 : Afficher les informations de traçabilité dans votre compte Microsoft Purview
Dans votre compte Microsoft Purview, vous pouvez parcourir les ressources et choisir de taper « Azure Synapse Analytics ». Vous pouvez également effectuer une recherche dans le Data Catalog à l’aide de mots clés.
Sélectionnez l’activité compte Synapse -> pipeline -> pour afficher les informations de traçabilité.
Surveiller les liens Azure Synapse Analytics
Dans le portail de gouvernance Microsoft Purview, vous pouvez surveiller les liens Azure Synapse Analytics.