Options de configuration avancée dans Azure Synapse Link

Article
11/06/2024

Azure Synapse Link offre plusieurs façons d’écrire et de lire vos données pour s’adapter à divers scénarios analytiques. En fonction de votre scénario d’analyse, vous pouvez choisir une configuration spécifique parmi les options ci-dessous.

Scénario	S’applique à	Options de configuration disponibles
Reporting opérationnel	Tables, tables de finances et d’opérations et entités Dataverse	Synapse Analytics avec l’option Delta Lake offre de meilleurs temps de requête réponse, particulièrement applicables pour l’interrogation de grandes quantités de données. Plus d’informations : Lien Synapse avec option Delta Lake
Reporting opérationnel	Dataverse tableaux uniquement	Synapse Link avec l’option de configuration « Mise à jour sur place » fournit des fichiers CSV dans votre lac de données qui sont mis à jour en temps quasi réel Il s’agit d’une option héritée disponible pour les tables Dataverse. Cette option n’est pas prise en charge pour les tables des applications de finances et d’opérations
Intégration de données	Tables, tables de finances et d’opérations et entités Dataverse	L’option Ajouter uniquement fournit des fichiers CSV contenant des données incrémentielles. Vous pouvez créer des pipelines qui consomment des données incrémentielles et alimentent les systèmes en aval La fonctionnalité Partition de données spécifiée par l'utilisateur permet de choisir une stratégie de partitionnement de données personnalisée spécialement pour les tables Dataverse. Les données des tableaux financiers et opérationnels sont partitionnées par le système en fonction d’une stratégie de partitionnement appropriée. Cette option n’est pas disponible pour les applications de finances et d’opérations

Note

Azure Synapse Link for Dataverse était auparavant connu sous le nom Exporter vers le lac de données. Ce service a été renommé en mai 2021 et continuera d’exporter des données vers Azure Data Lake Storage ainsi que vers Azure Synapse Analytics. À partir de septembre 2023, Azure Synapse Link vous permet également de choisir des données des applications de finances et d'opérations de Dynamics 365. Tous les modèles d’intégration ne sont pas pris en charge avec applications de finances et d’opérations. Pour obtenir des conseils sur la transition de la fonctionnalité d’exportation vers le lac de données dans les applications de finances et d’opérations vers Synapse Link, consultez le Guide de transition.

Cet article couvre les paramètres de configuration avancés disponibles pour les Dataverse tables. Ces options ne sont pas disponibles pour applications de finances et d’opérations.

Mises à jour sur place et écritures avec ajout uniquement.
Partitionnement des données spécifié par l’utilisateur.

Mises à jour sur place et écritures avec ajout uniquement

En écrivant les données de table Dataverse dans Azure Data Lake , en fonction de la valeur createdOn, qui correspond à la date et à l’heure de création de l’enregistrement, vous avez le choix entre deux paramètres différents. Il s’agit de Mise à jour sur place et Ajouter uniquement.

Le paramètre par défaut (pour les tables où createdOn est disponible) consiste à effectuer une mise à jour sur place ou une insertion (mise à jour ou insertion) des données incrémentielles dans la destination. Si la modification est nouvelle et qu’une ligne correspondante n’existe pas dans le lac, dans le cas d’une création, les fichiers de destination sont analysés et les modifications sont insérées dans la partition de fichier correspondante dans le lac. Si le changement est une mise à jour et qu’une ligne existe dans le lac, le fichier correspondant dans le lac est mis à jour, plutôt qu’inséré, avec les données incrémentielles. En d’autres termes, le paramètre par défaut pour tous les changements CUD dans les tables Dataverse, où createdOn est disponible, consiste à effectuer une mise à jour sur place dans la destination, dans Azure Data Lake.

Vous pouvez changer le comportement par défaut d’une mise à jour sur place à l’aide d’un paramètre facultatif appelé Ajouter uniquement. Plutôt qu’une Mise à jour sur place, en mode Ajouter uniquement, les données incrémentielles issues des tables Dataverse sont ajoutées à la partition de fichiers correspondante dans le lac. Il s’agit d’un paramètre par table et disponible sous forme de case à cocher sous Avancé>Afficher les paramètres de configuration avancés. Pour les tables Dataverse avec le paramètre Ajouter uniquement activé, toutes les modifications CUD sont ajoutées de manière incrémentielle aux fichiers de destination correspondants dans le lac. Lorsque vous choisissez cette option, la stratégie de partition est définie par défaut sur Année et lorsque les données sont écrites dans le lac de données, elles sont partitionnées par année. Ajouter uniquement est également le paramètre par défaut pour les tables Dataverse qui n’ont pas la valeur createdOn.

Ce tableau décrit comment les lignes sont gérées dans le lac par rapport aux événements CUD pour chacune des options d’écriture de données.

Événement	Mise à jour sur place	Ajouter uniquement
Créer	La ligne est insérée dans le fichier de partition et est basée sur la valeur `createdOn` sur la ligne.	La ligne est ajoutée à la fin du fichier de partition et est basée sur la valeur de l’enregistrement `createdOn`.
Mise à jour	Si la ligne existe dans le fichier de partition, elle est remplacée ou mise à jour avec des données mises à jour. Si elle n’existe pas, elle est insérée dans le fichier.	La ligne, avec la version mise à jour, est ajoutée à la fin du fichier de partition.
Suppr	Si la ligne existe dans le fichier de partition, elle est supprimée du fichier.	La ligne est ajoutée à la fin du fichier de partition avec `IsDelete column = True`.

Note

Pour les tables Dataverse où Ajouter seulement est activé, la suppression d’une ligne dans la source ne supprimera ni ne retirera la ligne dans le lac. Au lieu de cela, la ligne supprimée est ajoutée en tant que nouvelle ligne dans le lac et la colonne isDeleted est définie sur True.

La lecture modifiée (ALLOW_INCONSISTENT_READS) pour le mode sans serveur est activée pour le mode d’ajout uniquement. ALLOW_INCONSISTENT_READS signifie que l’utilisateur peut lire les fichiers qui peuvent être constamment modifiés pendant que la requête SELECT est en cours d’exécution. Les résultats sont cohérents et équivalents à la lecture d’un instantané du fichier. (Ce n’est pas équivalent à l’isolement d’instantané de base de données en raison du temps de génération d’instantané différent.)

Toutes les modifications CUD ne seront pas capturées dans append only : Synapse Link traite les modifications apportées aux données en groupes ou « lots » avant de les publier vers le lac de données. Par conséquent, si l’utilisateur apporte des modifications dans un court intervalle de temps, toutes les modifications CUD ne seront pas capturées dans le lac de données.

Voici quelques détails supplémentaires sur l’utilisation de l’une ou l’autre des options.

Mise à jour sur place : cette option est le paramètre par défaut et n’est recommandé que si vous souhaitez vous connecter directement aux données du lac et que vous avez besoin de l’état actuel (pas d’historique ou de modifications incrémentielles). Le fichier contient le jeu de données complet et peut être utilisé via Power BI ou en copiant l’intégralité des jeux de données pour les pipelines ETL (Extract, Transfer, Load).
Ajouter uniquement : Sélectionnez cette option si vous ne vous connectez pas directement aux données du lac et que vous souhaitez copier de manière incrémentielle des données vers une autre cible à l’aide de pipelines ETL. Cette option fournit un historique des modifications pour activer les scénarios AI et ML.

Vous pouvez basculer les Afficher les paramètres de configuration avancés en dessous de Avancés dans Azure Synapse Link for Dataverse pour personnaliser votre stratégie de partition de données et sélectionner des options pour écrire dans Azure Data Lake.

Afficher la configuration avancée.

Partitionnement des données

Quand vous écrivez des données de table Dataverse dans le stockage de lac de données Azure à l’aide de Azure Synapse Link, les tables sont partitionnées (au lieu d’un seul fichier) dans le lac en fonction de la valeur createdOn sur chaque ligne de la source. La stratégie de partition par défaut est mensuelle et les données sont partitionnées dans Azure Data Lake sur une base mensuelle.

Basé sur le volume de la table et la distribution des données Dataverse, vous pouvez choisir de partitionner vos données par année. Avec cette option, lorsque les données de la table Dataverse sont écrites dans Azure Data Lake, elles seront partitionnées chaque année en fonction de la valeur createdOn sur chaque ligne de la source. Pour les tables sans la colonne createdOn, les lignes de données sont partitionnées dans un nouveau fichier tous les cinq millions d’enregistrements. Il s’agit d’un paramètre par table et disponible sous forme de case à cocher sous Avancé>Afficher les paramètres de configuration avancés.

Détails supplémentaires avec des exemples de la façon dont les données sont gérées dans le lac avec une stratégie de partition annuelle ou mensuelle :

Stratégie de partition.

Voir aussi

Azure Synapse Link for Dataverse

Partager via

Options de configuration avancée dans Azure Synapse Link

Mises à jour sur place et écritures avec ajout uniquement

Partitionnement des données

Voir aussi

Commentaires

Ressources supplémentaires