Configurer Lakehouse dans une activité de copie
Cet article explique comment utiliser l’activité de copie dans un pipeline de données pour copier des données depuis et vers Fabric Lakehouse. Par défaut, les données sont écrites dans Lakehouse Table dans V-Order, et vous pouvez accéder à l’optimisation de la table Delta Lake et V-Order pour plus d’informations.
Format pris en charge
Lakehouse prend en charge les formats de fichier suivants. Reportez-vous à chaque article pour les paramètres basés sur le format.
- Format Avro
- Format binaire
- Format de texte délimité
- Format Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Configuration prise en charge
Pour la configuration de chaque onglet sous l’activité de copie, accédez respectivement aux sections suivantes.
Général
Pour la configuration de l’onglet Général, accédez à Général.
Source
Les propriétés suivantes sont prises en charge pour Lakehouse sous l’onglet Source d’une activité de copie.
Les propriétés suivantes sont requises :
Connexion : sélectionnez une connexion Lakehouse dans la liste des connexions. Si aucune connexion n’existe, créez une connexion Lakehouse en sélectionnant Plus au bas de la liste des connexions. Si vous utilisez Ajouter du contenu dynamique pour spécifier votre Lakehouse, ajoutez un paramètre et spécifiez l’ID d’objet Lakehouse comme valeur de paramètre. Pour obtenir votre ID d'objet Lakehouse, ouvrez votre Lakehouse dans votre espace de travail et l'ID se trouve après
/lakehouses/
dans votre URL.Dossier racine : sélectionnez Tables ou fichiers, qui indique la vue virtuelle de la zone gérée ou non managée dans votre lac. Pour plus d'informations, voir l'introduction de Lakehouse.
Si vous sélectionnez Tables :
Nom de la table : choisissez une table existante dans la liste de tables ou spécifiez un nom de table comme source. Vous pouvez également sélectionner Nouveau pour créer une table.
Table : lorsque vous appliquez Lakehouse avec des schémas dans la connexion, choisissez une table existante avec un schéma dans la liste de tables ou spécifiez une table avec un schéma comme source. Vous pouvez également sélectionner Nouveau pour créer une table avec un schéma. Si vous ne spécifiez pas de nom de schéma, le service utilise dbo comme schéma par défaut.
Sous Avancé, vous pouvez spécifier les champs suivants :
- Horodatage : spécifiez pour interroger un instantané plus ancien par horodatage.
- Version : spécifiez pour interroger une ancienne instantané par version.
- Colonnes supplémentaires : ajoutez des colonnes de données supplémentaires au chemin d’accès relatif ou à la valeur statique des fichiers sources du magasin. L’expression est prise en charge pour ce dernier.
Reader version 1 est pris en charge. Vous trouverez les fonctionnalités Delta Lake correspondantes prises en charge dans cet article.
Si vous sélectionnez Fichiers :
Type de chemin d’accès de fichier : vous pouvez choisir Chemin d’accès au fichier, Chemin d’accès au fichier générique ou Liste des fichiers comme type de chemin d’accès de fichier. La liste suivante décrit la configuration de chaque paramètre :
Chemin du fichier : sélectionnez Parcourir pour choisir le fichier que vous souhaitez copier, ou renseignez-le manuellement.
Chemin d’accès au fichier générique : spécifiez le chemin d’accès au dossier ou au fichier avec des caractères génériques sous votre zone Lakehouse non managée donnée (sous Fichiers) pour filtrer vos dossiers ou fichiers sources. Les caractères génériques autorisés sont les suivants :
*
(correspond à zéro caractère ou plusieurs) et?
(correspond à zéro ou un caractère). Utilisez^
comme caractère d’échappement si le nom de votre fichier ou dossier contient des caractères génériques ou ce caractère d’échappement.Chemin d’accès au dossier caractère générique : Chemin d’accès au dossier sous le conteneur donné. Si vous souhaitez utiliser un joker pour filtrer le dossier, ignorez ce paramètre et spécifiez cette information dans les paramètres de la source d’activité.
Nom de fichier générique : nom de fichier sous la zone non managée Lakehouse donnée (sous Fichiers) et le chemin d’accès au dossier.
Liste des fichiers : Indique qu’il faut copier un ensemble de fichiers donné.
- Chemin d’accès au dossier : pointe vers un dossier qui inclut les fichiers que vous souhaitez copier.
- Chemin d’accès à la liste des fichiers : Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier, un fichier par ligne indiquant le chemin relatif configuré dans le jeu de données.
De manière récursive : Indique si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement du dossier spécifié. Si cette option est activée, tous les fichiers du dossier d’entrée et de ses sous-dossiers sont traités de manière récursive. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
Format de fichier : sélectionnez votre format de fichier dans la liste déroulante. Sélectionnez le bouton Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.
Sous Avancé, vous pouvez spécifier les champs suivants :
- Filtrer par dernière modification : les fichiers sont filtrés en fonction des dates de dernière modification. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
- Heure de début : Les fichiers sont sélectionnés si leur dernière heure de modification est supérieure ou égale à l’heure configurée.
- Heure de fin : les fichiers sont sélectionnés si leur heure de dernière modification est inférieure à l’heure configurée.
- Activer la découverte des partitions : Pour les fichiers partitionnés, spécifiez s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes sources supplémentaires.
- Chemin d’accès à la racine de la partition : Lorsque la découverte de partition est activée, spécifiez le chemin racine absolu pour pouvoir lire les dossiers partitionnés en tant que colonnes de données.
- Nombre maximal de connexions simultanées : indique la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.
- Filtrer par dernière modification : les fichiers sont filtrés en fonction des dates de dernière modification. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
Destination
Les propriétés suivantes sont prises en charge pour Lakehouse sous l’onglet Destination d’une activité de copie.
Les propriétés suivantes sont requises :
Connexion : sélectionnez une connexion Lakehouse dans la liste des connexions. Si aucune connexion n’existe, créez une connexion Lakehouse en sélectionnant Plus au bas de la liste des connexions. Si vous utilisez Ajouter du contenu dynamique pour spécifier votre Lakehouse, ajoutez un paramètre et spécifiez l’ID d’objet Lakehouse comme valeur de paramètre. Pour obtenir votre ID d'objet Lakehouse, ouvrez votre Lakehouse dans votre espace de travail et l'ID se trouve après
/lakehouses/
dans votre URL.Dossier racine : sélectionnez Tables ou fichiers, qui indique la vue virtuelle de la zone gérée ou non managée dans votre lac. Pour plus d'informations, voir l'introduction de Lakehouse.
Si vous sélectionnez Tables :
Nom de la table : choisissez une table existante dans la liste de tables ou spécifiez un nom de table comme destination. Vous pouvez également sélectionner Nouveau pour créer une table.
Table : lorsque vous appliquez Lakehouse avec des schémas dans la connexion, choisissez une table existante avec un schéma dans la liste de tables ou spécifiez une table avec un schéma comme destination. Vous pouvez également sélectionner Nouveau pour créer une table avec un schéma. Si vous ne spécifiez pas de nom de schéma, le service utilise dbo comme schéma par défaut.
Sous Avancé, vous pouvez spécifier les champs suivants :
Actions de table : spécifiez l’opération par rapport à la table sélectionnée.
Ajouter : ajoutez de nouvelles valeurs à une table existante.
- Activer la partition : cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ».
- Nom de colonne de partitionnement : sélectionnez les colonnes de destination dans la mise en correspondance des schémas lorsque vous ajoutez des données à une nouvelle table. Lorsque vous ajoutez des données à une table existante qui a déjà des partitions, les colonnes de partitionnement sont dérivées automatiquement de la table existante. Les types de données pris en charge sont chaîne, entier, booléen et DateHeure. Le format respecte les paramètres de conversion de type sous l’onglet Mappage.
- Activer la partition : cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ».
Remplacer : remplacer les données et le schéma existants dans la table avec les nouvelles valeurs. Si cette opération est sélectionnée, vous pouvez activer la partition sur votre table cible :
- Activer la partition : cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ».
- Nom de la colonne de partition : sélectionnez parmi les colonnes de destination dans le mappage de schémas. Les types de données pris en charge sont chaîne, entier, booléen et DateHeure. Le format respecte les paramètres de conversion de type sous l’onglet Mappage.
Il prend en charge le voyage dans le temps Delta Lake. La table remplacée contient des journaux delta pour les versions précédentes ; vous pouvez y accéder dans votre Lakehouse. Vous pouvez également copier la table de la version précédente à partir de Lakehouse, en spécifiant Version dans la source d’activité de copie.
- Activer la partition : cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ».
Nombre maximal de connexions simultanées : la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.
Writer version 2 est pris en charge. Vous trouverez les fonctionnalités Delta Lake correspondantes prises en charge dans cet article.
Si vous sélectionnez Fichiers :
Chemin du fichier : sélectionnez Parcourir pour choisir le fichier que vous souhaitez copier, ou renseignez-le manuellement.
Format de fichier : sélectionnez votre format de fichier dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.
Sous Avancé, vous pouvez spécifier les champs suivants :
Comportement de copie :Définit le comportement de copie lorsque la source est constituée de fichiers d’une banque de données basée sur un fichier. Vous pouvez choisir d’aplatir la hiérarchie, de fusionner les fichiers, de préserver la hiérarchie ou d’ajouter du contenu dynamique comme comportement de copie. La configuration de chaque paramètre est la suivante :
- FlattenHierarchy : tous les fichiers du dossier source figurent dans le premier niveau du dossier de destination. Les noms des fichiers de destination sont générés automatiquement.
Fusionner des fichiers : fusionne tous les fichiers du dossier source dans un seul fichier. Si le nom de fichier est spécifié, le nom de fichier fusionné est le nom spécifié. Sinon, le nom du fichier sera généré automatiquement.
Conserver la hiérarchie : conserve la hiérarchie des fichiers dans le dossier cible. Le chemin relatif du fichier source vers un dossier source est identique au chemin relatif du fichier cible vers un dossier cible.
Ajouter du contenu dynamique : pour spécifier une expression pour une valeur de propriété, sélectionnez Ajouter du contenu dynamique. Ce champ ouvre le Générateur d’expressions, où vous pouvez générer des expressions à partir des variables système prises en charge, de la sortie de l’activité, des fonctions et des variables ou paramètres spécifiés par l’utilisateur. Pour plus d’informations sur le langage d’expression, accédez à Expressions et fonctions.
Nombre maximal de connexions simultanées : la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.
Taille de bloc (Mo) : spécifiez la taille de bloc en Mo lors de l’écriture de données dans Lakehouse. Les valeurs autorisées sont comprises entre 4 et 100 Mo.
Métadonnées : définissez des métadonnées personnalisées lors de la copie vers le magasin de données de destination. Chaque objet sous le tableau
metadata
représente une colonne supplémentaire.name
définit le nom de clé de métadonnées etvalue
indique la valeur des données de cette clé. Si la fonctionnalité de conservation des attributs est utilisée, les métadonnées spécifiées vont s’unir/remplacer les métadonnées du fichier source. Les valeurs de données autorisées sont :
Mappage
Pour la configuration de l’onglet Mappage, si vous n’appliquez pas la table Lakehouse comme magasin de données de destination, accédez à Mappage.
Si vous appliquez la table Lakehouse comme magasin de données de destination, à l’exception de la configuration dans Mappage, vous pouvez modifier le type de vos colonnes de destination. Après avoir sélectionné Importer des schémas, vous pouvez spécifier le type de colonne dans votre destination.
Par exemple, le type de colonne PersonID dans la source est int, et vous pouvez le remplacer par le type string lors du mappage à la colonne de destination.
Remarque
La modification du type de destination n’est actuellement pas prise en charge lorsque votre source est de type décimal.
Si vous choisissez Binaire comme format de fichier, le mappage n’est pas pris en charge.
Paramètres
Pour la configuration de l’onglet Paramètres, accédez à Paramètres.
Résumé de la table
Les tableaux suivants contiennent plus d’informations sur une activité de copie dans Lakehouse.
Informations sur la source
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Connection | La section pour sélectionner votre connexion. | < votre connexion Lakehouse> | Oui | workspaceId artifactId |
Dossier racine | Type du dossier racine. | • Tables • Fichiers |
Non | rootFolder : Table ou Fichiers |
Nom de la table | Le nom de la table dont vous voulez lire les données. | <nom de votre table> | Oui lorsque vous sélectionnez Tables dans le dossier racine | table |
Enregistrement | Nom de la table avec un schéma que vous souhaitez lire lorsque vous appliquez Lakehouse avec des schémas comme connexion. | <votre table avec un schéma> | Oui lorsque vous sélectionnez Tables dans le dossier racine | / |
Pour les Tables | ||||
nom de schéma | Nom du schéma. | <nom de votre schéma> (la valeur par défaut est dbo) |
Non | (sous source ->datasetSettings ->typeProperties )schéma |
nom de la table | Nom de la table. | <le nom de votre table> | Oui | table |
Timestamp | Horodatage pour interroger un instantané plus ancien. | <timestamp> | Non | timestampAsOf |
Version | Version permettant d’interroger un instantané plus ancien. | <version> | Non | versionAsOf |
Colonnes supplémentaires | Colonnes de données supplémentaires pour stocker le chemin d’accès relatif ou la valeur statique des fichiers sources. L’expression est prise en charge pour ce dernier. | • Nom • Valeur |
Non | additionalColumns : • nom • valeur |
Type de chemin d’accès au fichier | Type du chemin d’accès au fichier que vous utilisez. | • Chemin d’accès au fichier • Chemin d’accès au fichier générique • Liste de fichiers |
Oui lorsque vous sélectionnez Fichiers dans le dossier racine | / |
Chemin de fichier | Copiez à partir du chemin d’accès à un dossier/fichier sous le magasin de données source. | <file path> | Oui lorsque vous choisissez Chemin d’accès au fichier | • folderPath • fileName |
Chemins avec des caractères génériques | Chemin du dossier avec des caractères génériques sous le magasin de données source configuré pour filtrer les dossiers sources. | <chemins avec des caractères génériques> | Oui lorsque vous choisissez le chemin d’accès au fichier générique | • wildcardFolderPath • wildcardFileName |
Chemin d’accès du dossier | Pointe vers un dossier qui inclut les fichiers que vous souhaitez copier. | <chemin d’accès du dossier> | Non | folderPath |
Chemin d’accès à la liste des fichiers | Indique de copier un ensemble de fichiers donné. Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier, un fichier par ligne indiquant le chemin relatif configuré. | <chemin d’accès à la liste des fichiers> | Non | fileListPath |
Recursively | Traitez tous les fichiers du dossier d’entrée et de ses sous-dossiers de manière récursive ou uniquement ceux du dossier sélectionné. Ce paramètre est désactivé lorsqu’un seul fichier est sélectionné. | sélectionner ou désélectionner | Non | récursive : True ou False |
Format de fichier | Format de fichier pour vos données sources. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. | / | Oui lorsque vous sélectionnez Fichiers dans le dossier racine | / |
Filtrer par date de dernière modification | Les fichiers dont l’heure de la dernière modification se trouve dans la plage [Heure de début, Heure de fin) seront filtrés pour un traitement ultérieur. L’heure est appliquée au fuseau horaire UTC au format yyyy-mm-ddThh:mm:ss.fffZ .Cette propriété peut être ignorée, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers. |
• Heure de début • Heure de fin |
Non | modifiedDatetimeStart modifiedDatetimeEnd |
Activer la découverte de partition | Indique s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes source supplémentaires. | Sélectionné ou non sélectionné | Non | enablePartitionDiscovery : true ou false (par défaut) |
Chemin racine de la partition | Chemin d’accès racine de la partition absolue pour lire les dossiers partitionnés sous forme de colonnes de données. | <chemin racine de votre partition> | Non | partitionRootPath |
Connexions simultanées maximales | La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Une valeur est uniquement nécessaire lorsque vous souhaitez limiter les connexions simultanées. | <connexions simultanées maximales> | Non | maxConcurrentConnections |
Informations de destination
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Connection | La section pour sélectionner votre connexion. | < votre connexion Lakehouse> | Oui | workspaceId artifactId |
Dossier racine | Type du dossier racine. | • Tables • Fichiers |
Oui | rootFolder : Table ou Fichiers |
Nom de la table | Le nom de la table dans laquelle vous souhaitez écrire des données. | <nom de votre table> | Oui lorsque vous sélectionnez Tables dans le dossier racine | table |
Enregistrement | Nom de la table avec un schéma que vous souhaitez écrire lorsque vous appliquez Lakehouse avec des schémas comme connexion. | <votre table avec un schéma> | Oui lorsque vous sélectionnez Tables dans le dossier racine | / |
Pour les Tables | ||||
nom de schéma | Nom du schéma. | <nom de votre schéma> (la valeur par défaut est dbo) |
Non | (sous sink ->datasetSettings ->typeProperties )schéma |
nom de la table | Nom de la table. | <le nom de votre table> | Oui | table |
Action table | Ajoutez de nouvelles valeurs à une table existante ou remplacez les données et le schéma existants dans la table à l’aide des nouvelles valeurs. | • Ajouter • Remplacer |
Non | tableActionOption : Ajouter ou remplacer le schéma |
Activer les partitions | Cette sélection vous permet de créer des partitions dans une structure de dossiers basée sur une ou plusieurs colonnes. Chaque valeur de colonne distincte (paire) est une nouvelle partition. Par exemple, « year=2000/month=01/file ». | Sélectionné ou non sélectionné | Non | partitionOption : PartitionByKey ou Aucune |
Colonnes de partition | Les colonnes de destination dans le mappage des schémas. | <vos colonnes de partition> | Non | partitionNameList |
Chemin de fichier | Écrivez des données dans le chemin d’accès à un dossier/fichier sous le magasin de données de destination. | <file path> | Non | • folderPath • fileName |
Format de fichier | Format de fichier pour vos données de destination. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. | / | Oui lorsque vous sélectionnez Fichiers dans le dossier racine | / |
Comportement de copie | Le comportement de copie définit lorsque la source est constituée de fichiers d’une banque de données basée sur un fichier. | • Aplatir la hiérarchie • Fusionner des fichiers • Conserver la hiérarchie Ajouter du contenu dynamique |
Non | copyBehavior : • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Connexions simultanées maximales | La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. | <connexions simultanées maximales> | Non | maxConcurrentConnections |
Taille des blocs (Mo) | Taille du bloc en Mo utilisée pour écrire des données dans Lakehouse. Les valeurs autorisées sont comprises entre 4 et 100 Mo. | <taille des blocs> | Non | blockSizeInMB |
Métadonnées | Définition des métadonnées personnalisées lors de la copie vers une destination. | • $$LASTMODIFIED • Expression • Valeur statique |
Non | metadata |