Configurer Azure Files dans l’activité Copy
Cet article explique comment utiliser l’activité Copy dans le pipeline de données pour copier des données depuis et vers Azure Files.
Format pris en charge
Azure Files prend en charge les formats de fichier suivants. Reportez-vous à chaque article pour les paramètres basés sur le format.
- Format Avro
- Format binaire
- Format de texte délimité
- Format Excel
- Format JSON
- Format ORC
- Format Parquet
- Format XML
Configuration prise en charge
Pour la configuration de chaque onglet sous l’activité de copie, accédez respectivement aux sections suivantes.
Général
Reportez-vous aux instructions relatives aux paramètres Général pour configurer l’onglet Paramètres Général .
Source
Les propriétés suivantes sont prises en charge pour Azure Files sous l’onglet Source d’une activité Copy.
Les propriétés suivantes sont requises :
Type de magasin de données : sélectionnez Externe.
Connexion : sélectionnez une connexion Azure Files dans la liste des connexions. Si aucune connexion n’existe, créez une nouvelle connexion Azure Files en sélectionnant Nouveau.
Type de chemin de fichier : vous pouvez choisir Chemin d’accès au fichier, Préfixe, Chemin d’accès au fichier générique, Liste de fichiers comme type de chemin d’accès de fichier. La configuration de chaque paramètre est la suivante :
Chemin du fichier : Si vous choisissez ce type, les données peuvent être copiées à partir du chemin du dossier/fichier spécifié.
Préfixe : préfixe du nom de fichier sous le partage de fichiers spécifié pour filtrer les fichiers sources. Les fichiers dont le nom commence par
fileshare_in_connection/this_prefix
sont sélectionnés. Il utilise le filtre côté service pour Azure Files, qui offre de meilleures performances qu’un filtre de caractères génériques.Chemin du fichier générique : Spécifiez le chemin du dossier ou du fichier avec des caractères génériques pour filtrer les dossiers ou fichiers sources.
Les caractères génériques autorisés sont les suivants :
*
(correspond à zéro ou plusieurs caractères) et?
(correspond à zéro ou un caractère). Utilisez^
comme caractère d’échappement si le nom de votre dossier contient un caractère générique ou ce caractère d’échappement. Pour d’autres exemples, accédez à Exemples de filtres de dossier et de fichier.Chemin d’accès au dossier générique : spécifiez le chemin d’accès au dossier avec des caractères génériques pour filtrer les dossiers sources.
Nom du fichier générique : Spécifiez le nom du fichier avec des caractères génériques sous le chemin du dossier configuré/dossier générique pour filtrer les fichiers sources.
Liste des fichiers : indique un fichier donné dans lequel copier. Dans la liste Chemin d’accès aux fichiers, entrez ou accédez à un fichier texte qui inclut une liste de fichiers que vous souhaitez copier, un fichier par ligne, qui est le chemin d’accès relatif à chaque fichier.
Lorsque vous utilisez cette option, ne spécifiez pas de nom de fichier. Pour plus d’exemples, accédez à Exemples de listes de fichiers.
Chemin du dossier : Spécifiez le chemin d’accès à un dossier. Elle est obligatoire.
Chemin d’accès à la liste de fichiers : spécifiez le chemin d’accès du fichier texte qui comprend une liste de fichiers que vous souhaitez copier.
De manière récursive : Spécifiez si les données sont lues de manière récursive à partir des sous-dossiers ou uniquement du dossier spécifié. Notez que lorsque l’option De manière récursive est sélectionnée et que la destination est un magasin basé sur un fichier, aucun dossier ou sous-dossier vide n’est copié ni créé à la destination. Cette propriété est sélectionnée par défaut et ne s’applique pas lorsque vous configurez le Chemin d’accès à la liste de fichiers.
Format de fichier : sélectionnez le format de fichier appliqué dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.
Sous Avancé, vous pouvez spécifier les champs suivants :
Filtrer par dernière modification : les fichiers sont filtrés en fonction des dates de dernière modification. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.
Heure de début (UTC) : les fichiers sont sélectionnés si leur dernière heure de modification est supérieure ou égale à l’heure configurée.
Heure de fin (UTC) : les fichiers sont sélectionnés si leur heure de dernière modification est inférieure à l’heure configurée.
Lorsque Heure de début (UTC) a une valeur DateHeure, mais que Heure de fin (UTC) est NULL, cela signifie que les fichiers dont l’attribut de dernière modification est supérieur ou égal à la valeur DateHeure sont sélectionnés. Lorsque Heure de fin (UTC) a une valeur DateHeure, mais que Heure de début (UTC) est NULL, cela signifie que les fichiers dont l’attribut de dernière modification est inférieur à la valeur DateHeure sont sélectionnés. Les propriétés peuvent avoir la valeur NULL, ce qui a pour effet qu’aucun filtre d’attribut de fichier n’est appliqué au jeu de données.
Activer la détection de partition : spécifiez s’il faut analyser les partitions à partir du chemin d’accès au fichier et les ajouter en tant que colonnes sources supplémentaires. L’option n’est pas sélectionnée par défaut et n’est pas prise en charge lorsque vous utilisez le format de fichier binaire.
Chemin d'accès à la racine de la partition : Lorsque la découverte de partition est activée, spécifiez le chemin racine absolu pour pouvoir lire les dossiers partitionnés en tant que colonnes de données.
S’il n’est pas spécifié, par défaut :
- Quand vous utilisez le chemin d’accès au fichier ou la liste des fichiers sur la source, le chemin racine de la partition est le chemin que vous avez configuré.
- Quand vous utilisez le filtre de dossiers génériques, le chemin racine de la partition est le sous-chemin avant le premier caractère générique.
Par exemple, en supposant que vous configurez le chemin ainsi
root/folder/year=2020/month=08/day=27
:- Si vous spécifiez le chemin racine de la partition en tant que
root/folder/year=2020
, l’activité de copie génère deux colonnes supplémentaires, mois et jour, ayant respectivement la valeur « 08 » et « 27 », en plus des colonnes contenues dans les fichiers. - Si le chemin racine de la partition n’est pas spécifié, aucune colonne supplémentaire n’est générée.
Nombre maximal de connexions simultanées : cette propriété indique la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.
Colonnes supplémentaires : ajoutez des colonnes de données supplémentaires au chemin d’accès relatif ou à la valeur statique des fichiers sources du magasin. L'expression est prise en charge pour ce dernier.
Destination
Les propriétés suivantes sont prises en charge pour Azure Files sous l’onglet Destination d’une activité Copy.
Les propriétés suivantes sont requises :
- Type de magasin de données : sélectionnez Externe.
- Connexion : sélectionnez une connexion Azure Files dans la liste des connexions. Si la connexion n’existe pas, créez une connexion Azure Files en sélectionnant Nouveau.
- Chemin du fichier : sélectionnez Parcourir pour choisir le fichier que vous souhaitez copier, ou renseignez-le manuellement.
- Format de fichier : sélectionnez le format de fichier appliqué dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.
Sous Avancé, vous pouvez spécifier les champs suivants :
Comportement de copie :Définit le comportement de copie lorsque la source est constituée de fichiers d’une banque de données basée sur un fichier. Vous pouvez choisir un comportement dans la liste déroulante.
- - FlattenHierarchy : tous les fichiers du dossier source figurent dans le premier niveau du dossier de destination. Les noms des fichiers de destination sont générés automatiquement.
- Fusionner des fichiers : fusionne tous les fichiers du dossier source dans un seul fichier. Si le nom de fichier est spécifié, le nom de fichier fusionné est le nom spécifié. Sinon, le nom du fichier sera généré automatiquement.
- Conserver la hiérarchie : conserve la hiérarchie des fichiers dans le dossier cible. Le chemin d’accès relatif du fichier source vers le dossier source est identique au chemin d’accès relatif du fichier cible vers le dossier cible.
Nombre maximal de connexions simultanées : la limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.
Nombre maximum de lignes par fichier : lors de l'écriture de données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier.
Mappage
Pour la configuration de l’onglet Mappage, accédez à Configurer vos mappages sous l’onglet Mappage. Si vous choisissez Binaire comme format de fichier, le mappage ne sera pas pris en charge.
Paramètres
Pour la configuration de l’onglet Paramètres, consultez Configurer vos autres paramètres sous l’onglet Paramètres.
Résumé de la table
Les tableaux suivants contiennent plus d’informations sur l’activité Copy dans Azure Files.
Informations sur la source
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Type de banque de données | Votre type de magasin de données. | Externe | Oui | / |
Connection | Votre connexion au magasin de données source. | <votre connexion Azure Files> | Oui | connection |
Type de chemin d’accès au fichier | Type de chemin d’accès au fichier utilisé pour obtenir les données sources. | • Chemin d’accès du fichier • Préfixe • Chemin d’accès au fichier générique • Liste de fichiers |
Oui | / |
Pour le Chemin d’accès au fichier | ||||
Directory | Chemin du dossier. | <nom de votre dossier> | Non | folderPath |
Nom de fichier | Nom de fichier sous le chemin d’accès du dossier spécifié. | <nom de votre fichier> | Non | fileName |
Pour le Préfixe | ||||
Préfixe | Préfixe du nom de fichier sous le partage de fichiers spécifié pour filtrer les fichiers sources. | <votre préfixe> | Non | prefix |
Pour le Chemin d’accès au fichier générique | ||||
Chemin d’accès du dossier générique | Chemin d’accès du dossier avec des caractères génériques pour filtrer les dossiers sources. | <chemin d’accès à votre dossier avec caractères génériques> | Non | wildcardFolderPath |
Nom du fichier avec des caractères génériques | Nom du fichier avec des caractères génériques situé dans le chemin d’accès du dossier/dossier générique spécifié pour filtrer les fichiers sources. | <nom de votre fichier avec caractères génériques> | Oui | wildcardFileName |
Pour la Liste des fichiers | ||||
Chemin d’accès du dossier | Chemin du dossier. | <nom de votre dossier> | Non | folderpath |
Chemin d’accès à la liste des fichiers | Indique de copier un ensemble de fichiers donné. Pointez vers un fichier texte contenant la liste des fichiers que vous voulez copier. | < chemin d’accès à la liste de fichiers > | Non | fileListPath |
Recursively | Traitez tous les fichiers du dossier d’entrée et de ses sous-dossiers de manière récursive ou uniquement ceux du dossier sélectionné. Ce paramètre est désactivé lorsqu’un seul fichier est sélectionné. | Sélectionné ou désélection | Non | recursive |
Format de fichier | Format de fichier pour vos données sources. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. | / | Oui | / |
Filtrer par date de dernière modification | Les fichiers dont l’heure de la dernière modification se trouve dans la plage [Heure de début, Heure de fin) seront filtrés pour un traitement ultérieur. L’heure sera appliquée au fuseau horaire UTC au format yyyy-mm-ddThh:mm:ss.fffZ . Ces propriétés peuvent être ignorées, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers. |
datetime | Non | modifiedDatetimeStart modifiedDatetimeEnd |
Activer la découverte de partition | Indique s'il faut analyser les partitions à partir du chemin d'accès au fichier et les ajouter en tant que colonnes sources supplémentaires. | sélectionné ou non sélectionné (par défaut) | Non | enablePartitionDiscovery : true ou false (par défaut) |
Connexions simultanées maximales | La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. | <connexions simultanées maximales> | Non | maxConcurrentConnections |
Colonnes supplémentaires | Ajouter les colonnes de données supplémentaires pour stocker le chemin d’accès relatif ou la valeur statique des fichiers sources. L’expression est prise en charge pour ce dernier. | • Nom • Valeur |
Non | additionalColumns : • nom • valeur |
Informations de destination
Nom | Description | Valeur | Obligatoire | Propriété de script JSON |
---|---|---|---|---|
Type de banque de données | Votre type de magasin de données. | Externe | Oui | / |
Connection | Votre connexion au magasin de données de destination. | <votre connexion> | Oui | connection |
Chemin de fichier | Chemin d’accès du dossier/fichier vers le dossier de destination. | < chemin d’accès au dossier/fichier> | Oui | / |
Directory | Chemin d’accès au dossier sous le compartiment spécifié. | <nom de votre dossier> | Non | folderpath |
Nom de fichier | Nom de fichier sous le compartiment et le chemin d’accès du dossier spécifiés. | <nom de votre fichier> | Non | fileName |
Comportement de copie | Définit le comportement de copie lorsque la source est constituée de fichiers d’une banque de données basée sur un fichier. | • Aplatir la hiérarchie • Fusionner des fichiers • Conserver la hiérarchie |
Non | copyBehavior : • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Connexions simultanées maximales | La limite supérieure de connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. | <connexions simultanées maximales> | Non | maxConcurrentConnections |
Nombre maximum de lignes par fichier | Lorsque vous écrivez des données dans un dossier, vous pouvez choisir d'écrire dans plusieurs fichiers et spécifier le nombre maximum de lignes par fichier. Spécifiez le nombre maximum de lignes que vous souhaitez écrire par fichier. | < vos lignes maximales par fichier > | Non | maxRowsPerFile |