Configurar o SFTP em uma atividade de cópia
Este artigo descreve como usar a atividade de cópia no pipeline de dados para copiar dados do SFTP.
Formato suportado
SFTP suporta os seguintes formatos de arquivo. Consulte cada artigo para obter as configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração suportada
Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.
- General (Geral)
- Source
- Destino
- Mapeamento
- Administração
Geral
Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.
Source
Vá para a guia Origem para configurar sua fonte de atividade de cópia. Consulte o conteúdo a seguir para obter a configuração detalhada.
As três propriedades a seguir são necessárias:
Tipo de armazenamento de dados: Selecione Externo.
Conexão: Selecione uma conexão SFTP na lista de conexões. Se não houver conexão, crie uma nova conexão SFTP selecionando Novo.
Tipo de caminho de arquivo: Selecione a partir de Caminho de arquivo, Caminho de arquivo curinga e Lista de arquivos com base na maneira como você deseja ler arquivos.
Caminho do arquivo: Se você escolher esse tipo, especifique o caminho do arquivo de origem. Você pode selecionar Procurar para selecionar seus arquivos de origem ou inserir o caminho do arquivo manualmente.
Caminho do arquivo curinga: se você escolher esse tipo, especifique os caminhos curinga para filtrar suas pastas ou arquivos de origem.
Os curingas permitidos são
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
para escapar se o nome da pasta tiver um curinga ou esse caractere de escape dentro. Para obter mais exemplos, vá para Exemplos de filtro de pasta e arquivo.Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga para filtrar as pastas de origem.
Nome do arquivo curinga: especifique o nome do arquivo com caracteres curinga sob o caminho da pasta/caminho da pasta curinga para filtrar os arquivos de origem.
Lista de arquivos: Se você selecionar esse tipo, especifique o caminho da pasta e a lista Caminho para o arquivo para indicar a cópia de um determinado conjunto de arquivos. Aponte para um ficheiro de texto que inclua uma lista de ficheiros que pretende copiar, um ficheiro por linha. Para obter mais exemplos, vá para Exemplos de lista de arquivos.
Caminho da pasta: especifique o caminho para a pasta de origem. É obrigatório.
Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Filtrar pela última modificação: os arquivos são filtrados com base nas datas da última modificação especificadas. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
- Hora de início (UTC): Os ficheiros são selecionados se a hora da última modificação for igual ou superior à hora configurada.
- Hora de término (UTC): Os arquivos são selecionados se o tempo da última modificação for menor do que o tempo configurado.
Quando a hora de início (UTC) tem o valor datetime, mas a hora de término (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é maior ou igual ao valor datetime serão selecionados. Quando a hora de término (UTC) tem o valor datetime, mas a hora de início (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é menor que o valor datetime serão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo será aplicado aos dados.
Desativar fragmentação: a fragmentação é projetada para otimizar o desempenho e acontece por baixo. Esta opção permite que você desative o agrupamento dentro de cada arquivo. Ao copiar dados do SFTP, o serviço tenta obter o comprimento do arquivo primeiro, em seguida, dividir o arquivo em várias partes e lê-los em paralelo. Especifique se o seu servidor SFTP suporta obter o comprimento do arquivo ou procurar ler a partir de um determinado deslocamento. Ele é desmarcado por padrão.
Habilitar descoberta de partição: especifique se deseja analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. Ele é desmarcado por padrão e não é suportado quando você usa o formato de arquivo binário.
Caminho da raiz da partição: Quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.
Se não for especificado, por padrão,- Quando você usa o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição é o caminho que você configurou.
- Quando você usa o filtro de pasta curinga, o caminho da raiz da partição é o subcaminho antes do primeiro curinga.
Por exemplo, supondo que você configure o caminho como
root/folder/year=2020/month=08/day=27
:- Se você especificar o caminho da raiz da partição como
root/folder/year=2020
, a atividade de cópia gerará mais duas colunas mês e dia com o valor "08" e "27", respectivamente, além das colunas dentro dos arquivos. - Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.
Máximo de conexões simultâneas: esta propriedade indica o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. Para obter mais informações, vá para Adicionar colunas adicionais durante a cópia.
Destino
Vá para a guia Destino para configurar o destino da atividade de cópia. Consulte o conteúdo a seguir para obter a configuração detalhada.
- Tipo de armazenamento de dados: Selecione Externo.
- Conexão: Selecione uma conexão SFTP na lista de conexões. Se não houver conexão, crie uma nova conexão SFTP selecionando Novo.
- Caminho do arquivo: especifique o caminho do arquivo no qual os dados serão gravados. Você pode selecionar Procurar para selecionar seus arquivos de origem ou inserir o caminho do arquivo manualmente.
- Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento de cópia: especifique o comportamento de cópia quando a origem for de arquivos de um armazenamento de dados baseado em arquivo. Escolha entre as seguintes propriedades.
- Nivelar hierarquia: Todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
- Mesclar arquivos: mescla todos os arquivos da pasta de origem em um arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
- Preservar hierarquia (padrão): preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
- Adicionar conteúdo dinâmico: selecione esta opção para especificar seu comportamento de cópia usando conteúdo dinâmico.
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Tempo limite de operação (minutos): especifique o tempo limite para gravar cada parte no servidor SFTP. O valor padrão é 60 minutos.
Carregar com arquivo temporário: especifique se deseja fazer upload para arquivos temporários e renomeá-los ou gravar diretamente na pasta de destino ou no local do arquivo. Por padrão, ele é selecionado e o serviço primeiro grava em arquivos temporários e, em seguida, os renomeia quando o carregamento é concluído.
Essa sequência ajuda a (1) evitar conflitos que podem resultar em um arquivo corrompido se você tiver outros processos gravando no mesmo arquivo e (2) garantir que a versão original do arquivo exista durante a transferência. Se o seu servidor SFTP não suportar uma operação de renomeação, desative essa opção e certifique-se de que você não tenha uma gravação simultânea no arquivo de destino.
Gorjeta
Se você receber o erro "UserErrorSftpPathNotFound", "UserErrorSftpPermissionDenied" ou "SftpOperationFail" quando estiver gravando dados no SFTP, e o usuário SFTP que você usa tiver as permissões adequadas, verifique se a operação de renomeação do arquivo de suporte do servidor SFTP está funcionando. Se não estiver, desative a opção Carregar com arquivo temporário e tente novamente.
Mapeamento
Para a configuração da guia Mapeamento, consulte Configurar seus mapeamentos na guia mapeamento. Se você escolher binário como seu formato de arquivo, o mapeamento não será suportado.
Definições
Para Configuração da guia Configurações, vá para Configurar suas outras configurações na guia Configurações.
Resumo da tabela
A tabela a seguir contém mais informações sobre a atividade de cópia no SFTP.
Source
Nome | Descrição | valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão SFTP com o armazenamento de dados de origem. | < sua conexão SFTP > | Sim | ligação |
Tipo de caminho de arquivo | O tipo de caminho de arquivo usado para obter dados de origem. | • Caminho do arquivo • Caminho do arquivo curinga • Lista de ficheiros |
Sim | / |
Caminho do ficheiro | O caminho para o arquivo de origem. | < caminho do arquivo> | Sim | fileName folderPath |
Caminhos curinga | O caminho curinga para o arquivo de origem. | < o caminho do arquivo curinga > | Sim para nome de arquivo curinga | curingFolderPath curingaFileName |
Folder path | O caminho para a pasta de origem. | < o caminho da pasta> | Sim | folderPath |
Caminho para a lista de arquivos | Indica para copiar um determinado conjunto de arquivos. Aponte para um ficheiro de texto que inclua uma lista de ficheiros que pretende copiar, um ficheiro por linha. | < caminho da lista de arquivos > | Não | fileListPath |
Formato do ficheiro | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim | / |
Filtrar por última modificação | Os ficheiros com a hora da última modificação no intervalo [Hora de início, Hora de fim) serão filtrados para processamento posterior. A hora será aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ . Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo será aplicado. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos. |
datetime | Não | modifiedDatetimeStart modifiedDatetimeEnd |
Desativar fragmentação | A fragmentação é projetada para otimizar o desempenho e acontece por baixo. Esta opção permite que você desative o agrupamento dentro de cada arquivo. Ao copiar dados do SFTP, o serviço tenta obter o comprimento do arquivo primeiro, em seguida, dividir o arquivo em várias partes e lê-los em paralelo. Especifique se o seu servidor SFTP suporta obter o comprimento do arquivo ou procurar ler a partir de um determinado deslocamento. | selecionado ou desmarcado (padrão) | Não | disableChunking: true ou false (padrão) |
Habilitar a descoberta de partições | Indica se as partições devem ser analisadas a partir do caminho do arquivo e adicionadas como colunas de origem adicionais. | selecionado ou desmarcado (padrão) | Não | enablePartitionDiscovery: true ou false (padrão) |
Caminho da raiz da partição | O caminho raiz da partição absoluta para ler pastas particionadas como colunas de dados. Especifique-o quando a descoberta de partições estiver habilitada. | < caminho da raiz da partição > | Não | partitionRootPath |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | < limite superior de conexões simultâneas > (inteiro) |
Não | maxConcurrentConnections |
Colunas adicionais | Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. Para obter mais informações, vá para Adicionar colunas adicionais durante a cópia | • Nome • Valor |
Não | adicionaisColunas: • nome • valor |
Destino
Nome | Descrição | valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o SFTP de origem. | < A sua ligação > | Sim | ligação |
Caminho do ficheiro | O caminho do arquivo dos dados de destino. | Caminho do arquivo do destino | Sim | folderPath fileName |
Formato do ficheiro | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim | / |
Comportamento de cópia | Define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. | • Achatar a hierarquia • Mesclar arquivos • Preservar a hierarquia |
Não | copyComportamento: - FlattenHierarchy - MergeFiles - PreserveHierarchy |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | < Máximo de conexões simultâneas > | Não | maxConcurrentConnections |
Tempo limite de operação (minutos) | O tempo limite para gravar cada parte no servidor SFTP. | < o tempo limite da sua operação > O valor padrão é 60 |
Não | operaçãoTimeout |
Carregar com ficheiro temporário | Indica se o(s) arquivo(s) temporário(s) deve(m) ser carregado(s) e renomeado. Desative esta opção se o seu servidor SFTP não suportar a operação de renomeação. | selecionado (padrão) ou não selecionado | Não | useTempFileRename: true (padrão) ou false |