Partager via


Configurer SFTP dans une activité de copie

Cet article explique comment utiliser l’activité de copie dans le pipeline de données pour copier des données à partir de SFTP.

Format pris en charge

SFTP prend en charge les formats de fichier suivants. Reportez-vous à chaque article pour connaître les paramètres basés sur le format.

Configuration prise en charge

Pour la configuration de chaque onglet sous activité de copie, accédez respectivement aux sections suivantes.

Généralités

Reportez-vous aux instructions relatives aux paramètres généraux pour configurer l’onglet Paramètres généraux.

Source

Accédez à l’onglet Source pour configurer votre source d’activité de copie. Consultez le contenu suivant pour obtenir la configuration détaillée.

Capture d’écran montrant l’onglet source et la liste des propriétés.

Les trois propriétés suivantes sont requises :

  • Type de magasin de données: sélectionnez externe .

  • Connexion: sélectionnez une connexion SFTP dans la liste des connexions. Si aucune connexion n’existe, créez une connexion SFTP en sélectionnant Nouvelle.

  • Type de chemin d’accès au fichier : dans Chemin d’accès au fichier, sélectionnez Chemin d’accès au fichier générique et Liste des fichiers en fonction de la façon dont vous souhaitez lire les fichiers.

    • chemin d’accès au fichier: si vous choisissez ce type, spécifiez votre chemin d’accès au fichier source. Vous pouvez sélectionner Parcourir pour sélectionner vos fichiers sources ou entrer manuellement votre chemin d’accès au fichier.

    • chemin d’accès de fichier générique: si vous choisissez ce type, spécifiez les chemins d’accès génériques pour filtrer vos dossiers ou fichiers sources.

      Les caractères génériques autorisés sont * (correspond à zéro ou plus de caractères) et ? (correspond à zéro ou caractère unique). Utilisez ^ pour échapper si le nom de votre dossier contient un caractère générique ou comporte ce caractère d’échappement. Pour d’autres exemples, accédez à Exemples de filtres de dossier et de fichier.

      Capture d’écran montrant le chemin du fichier générique.

      Chemin d’accès générique du dossier: Spécifiez le chemin d’accès du dossier en utilisant des caractères génériques pour filtrer les dossiers sources.

      Nom de fichier avec caractères génériques: spécifiez le nom de fichier avec des caractères génériques dans le chemin d'accès au dossier donné/chemin du dossier générique pour filtrer les fichiers sources.

    • Liste des fichiers: si vous sélectionnez ce type, spécifiez le chemin d’accès du dossier et Chemin d’accès à la liste de fichiers pour indiquer la copie d’un jeu de fichiers donné. Pointez sur un fichier texte qui inclut une liste de fichiers que vous souhaitez copier, un fichier par ligne. Pour plus d’exemples, accédez à Exemples de liste de fichiers.

      • chemin d’accès au dossier: spécifiez le chemin d’accès à votre dossier source. C’est obligatoire.

      • chemin d’accès à la liste de fichiers: spécifiez le chemin d’accès du fichier texte qui inclut une liste de fichiers que vous souhaitez copier.

        Capture d’écran montrant la liste des fichiers.

  • format de fichier: sélectionnez le format de fichier appliqué dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles de Format pris en charge pour plus d’informations.

Sous avancé, vous pouvez spécifier les champs suivants :

  • Filtrer par dernière modification: les fichiers sont filtrés en fonction des dernières dates modifiées que vous avez spécifiées. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que Liste de fichiers.

    • heure de début (UTC): les fichiers sont sélectionnés si leur dernière heure de modification est supérieure ou égale à l’heure configurée.
    • heure de fin (UTC): les fichiers sont sélectionnés si leur dernière heure de modification est inférieure à l’heure configurée.

    Lorsque heure de début (UTC) a une valeur datetime, mais heure de fin (UTC) est NULL, cela signifie que les fichiers dont l’attribut modifié est supérieur ou égal à la valeur datetime sont sélectionnés. Lorsque heure de fin (UTC) a une valeur datetime, mais heure de début (UTC) a la valeur NULL, cela signifie que les fichiers dont l’attribut de dernière modification est inférieur à la valeur datetime sont sélectionnés. Les propriétés peuvent être NULL, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué aux données.

  • Désactiver la segmentation: la segmentation est conçue pour optimiser les performances et se déroule en arrière-plan. Cette option vous permet de désactiver la segmentation dans chaque fichier. Lors de la copie de données à partir de SFTP, le service tente d’obtenir d’abord la longueur du fichier, puis divise le fichier en plusieurs parties et les lit en parallèle. Spécifiez si votre serveur SFTP prend en charge l’obtention de la longueur du fichier ou la recherche de lecture à partir d’un certain décalage. Il n’est pas sélectionné par défaut.

  • Activer la découverte de partitions: spécifiez s’il faut analyser les partitions à partir du chemin d’accès du fichier et les ajouter en tant que colonnes sources supplémentaires. Il n’est pas sélectionné par défaut et n’est pas pris en charge lorsque vous utilisez le format de fichier binaire.

    • chemin racine de partition: lorsque la découverte de partition est activée, spécifiez le chemin racine absolu pour lire les dossiers partitionnés sous forme de colonnes de données.
      S’il n’est pas spécifié, par défaut,

      • Lorsque vous utilisez un chemin d’accès de fichier ou une liste de fichiers à la source, le chemin racine de la partition est celui que vous avez configuré.
      • Lorsque vous utilisez le filtre de dossiers génériques, le chemin racine de partition est le sous-chemin avant le premier caractère générique.

      Par exemple, en supposant que vous configurez le chemin en tant que root/folder/year=2020/month=08/day=27:

      • Si vous spécifiez le chemin racine de partition comme root/folder/year=2020, l’activité de copie génère deux colonnes supplémentaires mois et jour avec respectivement la valeur « 08 » et « 27 », en plus des colonnes à l’intérieur des fichiers.
      • Si le chemin racine de la partition n’est pas spécifié, aucune colonne supplémentaire n’est générée.

      capture d’écran montrant Activer la découverte de partitions.

  • Connexions simultanées maximales: cette propriété indique la limite supérieure des connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

  • colonnes supplémentaires: Ajouter des colonnes de données supplémentaires pour stocker le chemin relatif ou la valeur statique des fichiers sources. L'expression est prise en charge pour ce dernier. Pour plus d’informations, consultez la section Ajouter des colonnes supplémentaires pendant une copie.

Destination

Accédez à l'onglet Destination de pour configurer la destination de votre activité de copie. Consultez le contenu suivant pour obtenir la configuration détaillée.

Capture d’écran montrant l’onglet destination et la liste des propriétés.

  • type de stockage de données: Sélectionnez Externe.
  • Connexion: sélectionnez une connexion SFTP dans la liste des connexions. Si aucune connexion n’existe, créez une connexion SFTP en sélectionnant Nouvelle.
  • chemin d’accès au fichier: spécifiez le chemin d’accès au fichier dans lequel écrire vos données. Vous pouvez sélectionner Parcourir pour sélectionner vos fichiers sources ou entrer manuellement votre chemin d’accès au fichier.
  • format de fichier: sélectionnez le format de fichier appliqué dans la liste déroulante. Sélectionnez Paramètres pour configurer le format de fichier. Pour connaître les paramètres des différents formats de fichier, reportez-vous aux articles des formats pris en charge pour plus d'informations détaillées.

Sous avancé, vous pouvez spécifier les champs suivants :

  • Comportement de copie: Définissez le comportement de copie lorsque la source provient d’un magasin de données à base de fichiers. Choisissez parmi les propriétés suivantes.

    • hiérarchie aplatie: tous les fichiers du dossier source se trouvent dans le premier niveau du dossier cible. Les fichiers cibles ont des noms générés automatiquement.
    • fusionner des fichiers: fusionne tous les fichiers du dossier source vers un fichier. Si le nom de fichier est spécifié, le nom de fichier fusionné est le nom spécifié. Sinon, il s’agit d’un nom de fichier généré automatiquement.
    • conserver la hiérarchie (par défaut): conserve la hiérarchie de fichiers dans le dossier cible. Le chemin relatif du fichier source vers le dossier source est identique au chemin d’accès relatif du fichier cible au dossier cible.
    • Ajouter du contenu dynamique: sélectionnez cette option pour spécifier votre comportement de copie à l’aide du contenu dynamique.
  • Nombre maximal de connexions simultanées: limite supérieure des connexions simultanées établies au magasin de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées.

  • délai d’expiration de l’opération (minutes): spécifiez le délai d’attente pour l’écriture de chaque bloc sur le serveur SFTP. La valeur par défaut est de 60 minutes.

  • Charger avec un fichier temporaire: spécifiez s’il faut charger dans des fichiers temporaires et les renommer, ou écrire directement dans le dossier cible ou l’emplacement du fichier. Par défaut, il est sélectionné et le service écrit d’abord dans des fichiers temporaires, puis les renomme lorsque le chargement est terminé.

    Cette séquence permet d’éviter (1) les conflits susceptibles d’entraîner un fichier endommagé si d’autres processus écrivent dans le même fichier et (2) vérifient que la version d’origine du fichier existe pendant le transfert. Si votre serveur SFTP ne prend pas en charge une opération de renommage, désactivez cette option et assurez-vous que vous n’avez pas d’écriture simultanée dans le fichier cible.

    Conseil

    Si vous recevez l’erreur « UserErrorSftpPathNotFound », « UserErrorSftpPermissionDenied » ou « SftpOperationFail » lorsque vous écrivez des données dans SFTP, et que l’utilisateur SFTP que vous utilisez dispose des autorisations appropriées, vérifiez si l’opération de changement de nom de fichier de support du serveur SFTP fonctionne. Si ce n’est pas le cas, désactivez l’option Charger avec le fichier temporaire et réessayez.

Cartographie

Pour la configuration de l’onglet Mappage, consultez Configurer vos mappages sous l’onglet Mappage. Si vous choisissez Binaire comme format de fichier, le mappage n’est pas pris en charge.

Paramètres

Pour la configuration de l’onglet Paramètres, accédez à Configurer vos autres paramètres sous l’onglet Paramètres.

Résumé du tableau

Le tableau suivant contient plus d’informations sur l’activité de copie dans SFTP.

Source

Nom Description Valeur Obligatoire Propriété de script JSON
type de stockage de données Type de magasin de données. Externe Oui /
Connection Votre connexion SFTP au magasin de données source. < votre connexion SFTP > Oui connection
Type de chemin d’accès au fichier Type de chemin d’accès de fichier utilisé pour obtenir des données sources. Chemin d’accès au fichier
Chemin d’accès au fichier générique
liste de fichiers
Oui /
Chemin de fichier Chemin d’accès au fichier source. < chemin d’accès au fichier> Oui nom du fichier
folderPath
Chemins avec des caractères génériques Chemin d’accès générique au fichier source. <Chemin d’accès au fichier générique> Oui pour Nom de fichier générique wildcardFolderPath
wildcardFileName
Chemin d’accès du dossier Chemin d’accès à votre dossier source. < le chemin d'accès à votre dossier> Oui folderPath
chemin d’accès à la liste de fichiers Indique de copier un jeu de fichiers donné. Pointez sur un fichier texte qui inclut une liste de fichiers que vous souhaitez copier, un fichier par ligne. < chemin d’accès à la liste de fichiers > Non fileListPath
Format de fichier Format de fichier pour vos données sources. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. / Oui /
Filtrer par date de dernière modification Les fichiers avec l’heure de dernière modification dans la plage [Heure de début, Heure de fin) sont filtrés pour un traitement ultérieur. L’heure est appliquée au fuseau horaire UTC au format yyyy-mm-ddThh:mm:ss.fffZ. Ces propriétés peuvent être ignorées, ce qui signifie qu’aucun filtre d’attribut de fichier n’est appliqué. Cette propriété ne s’applique pas lorsque vous configurez votre type de chemin d’accès de fichier en tant que liste de fichiers. date et heure Non modifiedDatetimeStart
modifiedDatetimeEnd
Désactiver la segmentation La segmentation est conçue pour optimiser les performances et s'effectue en arrière-plan. Cette option vous permet de désactiver la segmentation dans chaque fichier. Lors de la copie de données à partir de SFTP, le service tente d’obtenir d’abord la longueur du fichier, puis divise le fichier en plusieurs parties et les lit en parallèle. Spécifiez si votre serveur SFTP prend en charge l’obtention de la longueur du fichier ou la recherche de lecture à partir d’un certain décalage. sélectionné ou non sélectionné (par défaut) Non disableChunking:
true ou false (valeur par défaut)
Activer la découverte de partitions Indique s’il faut analyser les partitions à partir du chemin d’accès du fichier et les ajouter en tant que colonnes sources supplémentaires. sélectionné ou non sélectionné (par défaut) Non enablePartitionDiscovery :
true ou false (valeur par défaut)
chemin racine de partition Chemin racine de la partition absolue pour lire les dossiers partitionnés sous forme de colonnes de données. Spécifiez-le lorsque la découverte de partition est activée. < chemin racine de la partition > Non partitionRootPath
nombre maximal de connexions simultanées La limite maximale des connexions simultanées établies à l’entrepôt de données pendant l’exécution de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. < limite supérieure des connexions simultanées >
(entier)
Non maxConcurrentConnections
Colonnes supplémentaires Ajoutez des colonnes de données supplémentaires pour stocker le chemin d’accès relatif ou la valeur statique des fichiers sources. L'expression est prise en charge pour ce dernier. Pour plus d’informations, consultez la section Ajouter des colonnes supplémentaires pendant une copie •Nom
•Valeur
Non additionalColumns :
• nom
•valeur

Destination

Nom Description Valeur Obligatoire Propriété de script JSON
type d'entrepôt de données Type de magasin de données. Externe Oui /
Connection Votre connexion au SFTP source. < votre connexion > Oui connection
Chemin de fichier Chemin d’accès au fichier de vos données de destination. Chemin d’accès au fichier de la destination Oui folderPath
Nom de fichier
Format de fichier Format de fichier pour vos données sources. Pour plus d’informations sur les différents formats de fichier, reportez-vous aux articles de Format pris en charge. / Oui /
Comportement de copie Définit le comportement de copie lorsque la source est des fichiers à partir d’un magasin de données basé sur des fichiers. • Aplatir la hiérarchie
• Fusionner des fichiers
• Conserver la hiérarchie
Non copyBehavior :
– FlattenHierarchy
- MergeFiles
- PréserverLaHiérarchie
nombre maximal de connexions simultanées Limite supérieure des connexions simultanées établies au magasin de données pendant le déroulement de l’activité. Spécifiez une valeur uniquement lorsque vous souhaitez limiter les connexions simultanées. < nombre maximal de connexions simultanées > Non maxConcurrentConnections
délai d’expiration de l’opération (minutes) Délai d’expiration pour l’écriture de chaque bloc sur le serveur SFTP. < votre délai d’expiration de l’opération >
La valeur par défaut est 60
Non operationTimeout
Charger avec un fichier temporaire Indique s’il faut charger des fichiers temporaires et renommer. Désactivez cette option si votre serveur SFTP ne prend pas en charge l’opération de renommage. sélectionné (par défaut) ou non sélectionné Non useTempFileRename :
true (valeur par défaut) ou false