Configurar Arquivos do Azure em uma atividade de cópia
Este artigo descreve como usar a atividade de cópia no pipeline de dados para copiar dados de e para os Arquivos do Azure.
Formato suportado
Os Arquivos do Azure dão suporte aos seguintes formatos de arquivo. Consulte cada artigo para obter as configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração suportada
Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.
- General (Geral)
- Source
- Destino
- Mapeamento
- Definições
Geral
Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.
Origem
As propriedades a seguir têm suporte para Arquivos do Azure na guia Origem de uma atividade de cópia.
As seguintes propriedades são necessárias:
Tipo de armazenamento de dados: Selecione Externo.
Conexão: selecione uma conexão de Arquivos do Azure na lista de conexões. Se não houver conexão, crie uma nova conexão de Arquivos do Azure selecionando Novo.
Tipo de caminho de arquivo: Você pode escolher Caminho de arquivo, Prefixo, Caminho de arquivo curinga, Lista de arquivos como seu tipo de caminho de arquivo. A configuração de cada configuração é:
Caminho do arquivo: Se você escolher esse tipo, os dados poderão ser copiados do caminho da pasta/arquivo especificado.
Prefixo: Prefixo para o nome do arquivo sob o compartilhamento de arquivos especificado para filtrar arquivos de origem. Os arquivos com nome começando com
fileshare_in_connection/this_prefix
são selecionados. Ele utiliza o filtro do lado do serviço para Arquivos do Azure, que fornece melhor desempenho do que um filtro curinga.Caminho do arquivo curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga para filtrar pastas ou arquivos de origem.
Os curingas permitidos são
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
para escapar se o nome da pasta tiver um curinga ou esse caractere de escape dentro. Para obter mais exemplos, vá para Exemplos de filtro de pasta e arquivo.Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga para filtrar as pastas de origem.
Nome do arquivo curinga: especifique o nome do arquivo com caracteres curinga no caminho da pasta/pasta curinga configurado para filtrar os arquivos de origem.
Lista de arquivos: indica um determinado conjunto de arquivos para o qual copiar. Em Caminho para a lista de arquivos, insira ou navegue até um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para cada arquivo.
Quando estiver a utilizar esta opção, não especifique um nome de ficheiro. Para obter mais exemplos, vá para Exemplos de lista de arquivos.
Caminho da pasta: especifique o caminho para uma pasta. É obrigatório.
Caminho para a lista de arquivos: especifique o caminho do arquivo de texto que inclui uma lista de arquivos que você deseja copiar.
Recursivamente: especifique se os dados são lidos recursivamente a partir das subpastas ou apenas da pasta especificada. Observe que quando Recursivamente é selecionado e o destino é um armazenamento baseado em arquivo, uma pasta ou subpasta vazia não é copiada ou criada no destino. Essa propriedade é selecionada por padrão e não se aplica quando você configura o caminho para a lista de arquivos.
Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Filtrar por última modificação: Os ficheiros são filtrados com base nas datas da última modificação. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos.
Hora de início (UTC): Os ficheiros são selecionados se a hora da última modificação for igual ou superior à hora configurada.
Hora de término (UTC): Os arquivos são selecionados se o tempo da última modificação for menor do que o tempo configurado.
Quando a hora de início (UTC) tem o valor datetime, mas a hora de término (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é maior ou igual ao valor datetime serão selecionados. Quando a hora de término (UTC) tem o valor datetime, mas a hora de início (UTC) é NULL, isso significa que os arquivos cujo atributo da última modificação é menor que o valor datetime serão selecionados. As propriedades podem ser NULL, o que significa que nenhum filtro de atributo de arquivo será aplicado aos dados.
Habilitar descoberta de partição: especifique se deseja analisar as partições do caminho do arquivo e adicioná-las como colunas de origem adicionais. Ele é desmarcado por padrão e não é suportado quando você usa o formato de arquivo binário.
Caminho da raiz da partição: Quando a descoberta de partição estiver habilitada, especifique o caminho raiz absoluto para ler pastas particionadas como colunas de dados.
Se não for especificado, por padrão,
- Quando você usa o caminho do arquivo ou a lista de arquivos na origem, o caminho da raiz da partição é o caminho que você configurou.
- Quando você usa o filtro de pasta curinga, o caminho da raiz da partição é o subcaminho antes do primeiro curinga.
Por exemplo, supondo que você configure o caminho como
root/folder/year=2020/month=08/day=27
:- Se você especificar o caminho da raiz da partição como
root/folder/year=2020
, a atividade de cópia gerará mais duas colunas mês e dia com o valor "08" e "27", respectivamente, além das colunas dentro dos arquivos. - Se o caminho raiz da partição não for especificado, nenhuma coluna extra será gerada.
Máximo de conexões simultâneas: esta propriedade indica o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Colunas adicionais: adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último.
Destino
As propriedades a seguir têm suporte para Arquivos do Azure na guia Destino de uma atividade de cópia.
As seguintes propriedades são necessárias:
- Tipo de armazenamento de dados: Selecione Externo.
- Conexão: selecione uma conexão de Arquivos do Azure na lista de conexões. Se a conexão não existir, crie uma nova conexão de Arquivos do Azure selecionando Novo.
- Caminho do arquivo: Selecione Procurar para escolher o arquivo que deseja copiar ou preencher o caminho manualmente.
- Formato de arquivo: selecione o formato de arquivo aplicado na lista suspensa. Selecione Configurações para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento de cópia: define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. Você pode escolher um comportamento na lista suspensa.
- Nivelar a hierarquia: Todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
- Mesclar arquivos: mescla todos os arquivos da pasta de origem em um arquivo. Se o nome do arquivo for especificado, o nome do arquivo mesclado será o nome especificado. Caso contrário, é um nome de arquivo gerado automaticamente.
- Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Máximo de linhas por arquivo: Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique o máximo de linhas que você deseja escrever por arquivo.
Mapeamento
Para Configuração da guia Mapeamento , vá para Configurar seus mapeamentos na guia Mapeamento. Se você escolher Binário como formato de arquivo, o mapeamento não será suportado.
Definições
Para a configuração da guia Configurações , consulte Configurar suas outras configurações na guia configurações.
Resumo da tabela
As tabelas a seguir contêm mais informações sobre a atividade de cópia nos Arquivos do Azure.
Fonte da informação
Nome | Descrição | valor | Necessário | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o armazenamento de dados de origem. | <sua conexão de Arquivos do Azure> | Sim | ligação |
Tipo de caminho de arquivo | O tipo de caminho de arquivo usado para obter dados de origem. | • Caminho do arquivo • Prefixo • Caminho do arquivo curinga • Lista de ficheiros |
Sim | / |
Para o caminho do arquivo | ||||
Diretório | O caminho para a pasta. | <o nome da sua pasta> | Não | folderPath |
Nome do ficheiro | O nome do arquivo sob o caminho da pasta especificada. | <o seu nome de ficheiro> | Não | fileName |
Para prefixo | ||||
Prefixo | O prefixo para o nome do arquivo sob o compartilhamento de arquivos especificado para filtrar arquivos de origem. | <o seu prefixo> | Não | prefixo |
Para o caminho do arquivo curinga | ||||
Caminho da pasta curinga | O caminho da pasta com caracteres curinga para filtrar pastas de origem. | <o caminho da pasta com caracteres curinga> | Não | curingFolderPath |
Nome do arquivo curinga | O nome do arquivo com caracteres curinga sob o caminho da pasta/pasta curinga especificada para filtrar os arquivos de origem. | <seu nome de arquivo com caracteres curinga> | Sim | curingaFileName |
Para Lista de arquivos | ||||
Folder path | O caminho para a pasta. | <o nome da sua pasta> | Não | folderpath |
Caminho para a lista de arquivos | Indica para copiar um determinado conjunto de arquivos. Aponte para um ficheiro de texto que inclua uma lista de ficheiros que pretende copiar, um ficheiro por linha. | < caminho da lista de arquivos > | Não | fileListPath |
Recursivamente | Processe todos os arquivos na pasta de entrada e suas subpastas recursivamente ou apenas os da pasta selecionada. Essa configuração é desabilitada quando um único arquivo é selecionado. | Selecionado ou desmarcado | Não | recursiva |
Formato do ficheiro | O formato de arquivo para seus dados de origem. Para obter informações sobre diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas. | / | Sim | / |
Filtrar por última modificação | Os ficheiros com a hora da última modificação no intervalo [Hora de início, Hora de fim) serão filtrados para processamento posterior. A hora será aplicada ao fuso horário UTC no formato de yyyy-mm-ddThh:mm:ss.fffZ . Essas propriedades podem ser ignoradas, o que significa que nenhum filtro de atributo de arquivo será aplicado. Essa propriedade não se aplica quando você configura o tipo de caminho de arquivo como Lista de arquivos. |
datetime | Não | modifiedDatetimeStart modifiedDatetimeEnd |
Habilitar a descoberta de partições | Indica se as partições devem ser analisadas a partir do caminho do arquivo e adicionadas como colunas de origem adicionais. | selecionado ou desmarcado (padrão) | Não | enablePartitionDiscovery: true ou false (padrão) |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Colunas adicionais | Adicione colunas de dados adicionais para armazenar o caminho relativo ou o valor estático dos arquivos de origem. A expressão é suportada para este último. | • Nome • Valor |
Não | adicionaisColunas: • nome • valor |
Informações sobre o destino
Nome | Descrição | valor | Necessário | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o armazenamento de dados de destino. | <A sua ligação> | Sim | ligação |
Caminho do ficheiro | O caminho da pasta/arquivo para o arquivo de destino. | < caminho da pasta/arquivo > | Sim | / |
Diretório | O caminho para a pasta sob o bucket especificado. | <o nome da sua pasta> | Não | folderpath |
Nome do ficheiro | O nome do arquivo sob o bucket especificado e o caminho da pasta. | <o seu nome de ficheiro> | Não | fileName |
Comportamento de cópia | Define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. | • Achatar a hierarquia • Mesclar arquivos • Preservar a hierarquia |
Não | copyComportamento: • FlattenHierarchy • MergeFiles • PreserveHierarchy |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Máximo de linhas por ficheiro | Ao gravar dados em uma pasta, você pode optar por gravar em vários arquivos e especificar o máximo de linhas por arquivo. Especifique o máximo de linhas que você deseja escrever por arquivo. | < o máximo de linhas por ficheiro > | Não | maxRowsPerFile |