Partilhar via


Configurar Arquivos do Azure em uma atividade de cópia

Este artigo descreve como usar a atividade de cópia no pipeline de dados para copiar dados de e para os Arquivos do Azure.

Formato suportado

Os Arquivos do Azure dão suporte aos seguintes formatos de arquivo. Consulte cada artigo para obter as configurações baseadas em formato.

Configuração suportada

Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.

Geral

Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.

Origem

As propriedades a seguir têm suporte para Arquivos do Azure na guia Origem de uma atividade de cópia.

Captura de ecrã a mostrar o separador origem e a lista de propriedades.

As seguintes propriedades são necessárias:

  • Tipo de armazenamento de dados: Selecione Externo.

  • Conexão: selecione uma conexão de Arquivos do Azure na lista de conexões. Se não houver conexão, crie uma nova conexão de Arquivos do Azure selecionando Novo.

  • Tipo de caminho de arquivo: Você pode escolher Caminho de arquivo, Prefixo, Caminho de arquivo curinga, Lista de arquivos como seu tipo de caminho de arquivo. A configuração de cada configuração é:

    • Caminho do arquivo: Se você escolher esse tipo, os dados poderão ser copiados do caminho da pasta/arquivo especificado.

    • Prefixo: Prefixo para o nome do arquivo sob o compartilhamento de arquivos especificado para filtrar arquivos de origem. Os arquivos com nome começando com fileshare_in_connection/this_prefix são selecionados. Ele utiliza o filtro do lado do serviço para Arquivos do Azure, que fornece melhor desempenho do que um filtro curinga.

      Captura de tela mostrando o tipo de caminho do arquivo de prefixo.

    • Caminho do arquivo curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga para filtrar pastas ou arquivos de origem.

      Os curingas permitidos são * (corresponde a zero ou mais caracteres) e ? (corresponde a zero ou caractere único). Use ^ para escapar se o nome da pasta tiver um curinga ou esse caractere de escape dentro. Para obter mais exemplos, vá para Exemplos de filtro de pasta e arquivo.

      Captura de tela mostrando o caminho do arquivo curinga.

      Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga para filtrar as pastas de origem.

      Nome do arquivo curinga: especifique o nome do arquivo com caracteres curinga no caminho da pasta/pasta curinga configurado para filtrar os arquivos de origem.

    • Lista de arquivos: indica um determinado conjunto de arquivos para o qual copiar. Em Caminho para a lista de arquivos, insira ou navegue até um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para cada arquivo.

      Quando estiver a utilizar esta opção, não especifique um nome de ficheiro. Para obter mais exemplos, vá para Exemplos de lista de arquivos.

      Captura de ecrã a mostrar o caminho para a lista de ficheiros.

      • Caminho da pasta: especifique o caminho para uma pasta. É obrigatório.

      • Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.

  • Recursivamente: especifique se os dados são lidos recursivamente a partir das subpastas ou apenas da pasta especificada. Observe que quando Recursivamente é selecionado e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. Essa propriedade é selecionada por padrão e não se aplica quando você configura o caminho para a lista de arquivos.

  • Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.

Em Avançado, você pode especificar os seguintes campos:

  • Filtrar por última modificação: Os ficheiros são filtrados com base nas datas da última modificação. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.

    • Hora de início (UTC): Os ficheiros são selecionados se a hora da última modificação for igual ou superior à hora configurada.

    • Hora de término (UTC): Os arquivos são selecionados se o tempo da última modificação for menor do que o tempo configurado.

      Quando a hora de início (UTC) tem o valor datetime, mas a hora de término (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é maior ou igual ao valor datetime serão selecionados. Quando a hora de término (UTC) tem o valor datetime, mas a hora de início (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é menor que o valor datetime serão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo será aplicado aos dados.

  • Habilitar descoberta de partição: especifique se deseja analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. Ele é desmarcado por padrão e não é suportado quando você usa o formato de arquivo binário.

    • Caminho da raiz da partição: Quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.

      Se não for especificado, por padrão,

      • Quando você usa o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição é o caminho que você configurou.
      • Quando você usa o filtro de pasta curinga, o caminho da raiz da partição é o subcaminho antes do primeiro curinga.

      Por exemplo, supondo que você configure o caminho como root/folder/year=2020/month=08/day=27:

      • Se você especificar o caminho da raiz da partição como root/folder/year=2020, a atividade de cópia gerará mais duas colunas mês e dia com o valor "08" e "27", respectivamente, além das colunas dentro dos arquivos.
      • Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.

    Captura de tela mostrando a descoberta de partição.

  • Máximo de conexões simultâneas: esta propriedade indica o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.

  • Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último.

Destino

As propriedades a seguir têm suporte para Arquivos do Azure na guia Destino de uma atividade de cópia.

Captura de ecrã a mostrar o separador de destino.

As seguintes propriedades são necessárias:

  • Tipo de armazenamento de dados: Selecione Externo.
  • Conexão: selecione uma conexão de Arquivos do Azure na lista de conexões. Se a conexão não existir, crie uma nova conexão de Arquivos do Azure selecionando Novo.
  • Caminho do arquivo: Selecione Procurar para escolher o arquivo que deseja copiar ou preencher o caminho manualmente.
  • Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.

Em Avançado, você pode especificar os seguintes campos:

  • Comportamento de cópia: define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. Você pode escolher um comportamento na lista suspensa.

    Captura de tela mostrando o comportamento da cópia.

    • Nivelar a hierarquia: Todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
    • Mesclar arquivos: mescla todos os arquivos da pasta de origem em um arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
    • Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
  • Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.

  • Máximo de linhas por arquivo: Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique o máximo de linhas que você deseja escrever por arquivo.

Mapeamento

Para Configuração da guia Mapeamento , vá para Configurar seus mapeamentos na guia Mapeamento. Se você escolher Binário como formato de arquivo, o mapeamento não será suportado.

Definições

Para a configuração da guia Configurações , consulte Configurar suas outras configurações na guia configurações.

Resumo da tabela

As tabelas a seguir contêm mais informações sobre a atividade de cópia nos Arquivos do Azure.

Fonte da informação

Nome Descrição valor Necessário Propriedade de script JSON
Tipo de armazenamento de dados Seu tipo de armazenamento de dados. Externa Sim /
Ligação Sua conexão com o armazenamento de dados de origem. <sua conexão de Arquivos do Azure> Sim ligação
Tipo de caminho de arquivo O tipo de caminho de arquivo usado para obter dados de origem. • Caminho do arquivo
• Prefixo
• Caminho do arquivo curinga
• Lista de ficheiros
Sim /
Para o caminho do arquivo
Diretório O caminho para a pasta. <o nome da sua pasta> Não folderPath
Nome do ficheiro O nome do arquivo sob o caminho da pasta especificada. <o seu nome de ficheiro> Não fileName
Para prefixo
Prefixo O prefixo para o nome do arquivo sob o compartilhamento de arquivos especificado para filtrar arquivos de origem. <o seu prefixo> Não prefixo
Para o caminho do arquivo curinga
Caminho da pasta curinga O caminho da pasta com caracteres curinga para filtrar pastas de origem. <o caminho da pasta com caracteres curinga> Não curingFolderPath
Nome do arquivo curinga O nome do arquivo com caracteres curinga sob o caminho da pasta/pasta curinga especificada para filtrar os arquivos de origem. <seu nome de arquivo com caracteres curinga> Sim curingaFileName
Para Lista de arquivos
Folder path O caminho para a pasta. <o nome da sua pasta> Não folderpath
Caminho para a lista de arquivos Indica para copiar um determinado conjunto de arquivos. Aponte para um ficheiro de texto que inclua uma lista de ficheiros que pretende copiar, um ficheiro por linha. < caminho da lista de arquivos > Não fileListPath
Recursivamente Processe todos os arquivos na pasta de entrada e suas subpastas recursivamente ou apenas os da pasta selecionada. Essa configuração é desabilitada quando um único arquivo é selecionado. Selecionado ou desmarcado Não recursiva
Formato do ficheiro O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. / Sim /
Filtrar por última modificação Os ficheiros com a hora da última modificação no intervalo [Hora de início, Hora de fim) serão filtrados para processamento posterior. A hora será aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ. Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo será aplicado. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos. datetime Não modifiedDatetimeStart
modifiedDatetimeEnd
Habilitar a descoberta de partições Indica se as partições devem ser analisadas a partir do caminho do arquivo e adicionadas como colunas de origem adicionais. selecionado ou desmarcado (padrão) Não enablePartitionDiscovery:
true ou false (padrão)
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections
Colunas adicionais Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. • Nome
• Valor
Não adicionaisColunas:
• nome
• valor

Informações sobre o destino

Nome Descrição valor Necessário Propriedade de script JSON
Tipo de armazenamento de dados Seu tipo de armazenamento de dados. Externa Sim /
Ligação Sua conexão com o armazenamento de dados de destino. <A sua ligação> Sim ligação
Caminho do ficheiro O caminho da pasta/arquivo para o arquivo de destino. < caminho da pasta/arquivo > Sim /
Diretório O caminho para a pasta sob o bucket especificado. <o nome da sua pasta> Não folderpath
Nome do ficheiro O nome do arquivo sob o bucket especificado e o caminho da pasta. <o seu nome de ficheiro> Não fileName
Comportamento de cópia Define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. • Achatar a hierarquia
• Mesclar arquivos
• Preservar a hierarquia
Não copyComportamento:
• FlattenHierarchy
• MergeFiles
• PreserveHierarchy
Máximo de conexões simultâneas O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. <Máximo de conexões simultâneas> Não maxConcurrentConnections
Máximo de linhas por ficheiro Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique o máximo de linhas que você deseja escrever por arquivo. < o máximo de linhas por ficheiro > Não maxRowsPerFile