Configurar o Armazenamento de Blobs do Azure em uma atividade de cópia
Este artigo descreve como usar a atividade de cópia em um pipeline de dados para copiar dados de e para o Armazenamento de Blobs do Azure.
Formato suportado
O Armazenamento de Blobs do Azure dá suporte aos seguintes formatos de arquivo. Consulte cada artigo para obter as configurações baseadas em formato.
- Formato Avro
- Formato binário
- Formato de texto delimitado
- Formato Excel
- Formato JSON
- Formato ORC
- Formato Parquet
- Formato XML
Configuração suportada
Para a configuração de cada guia em atividade de cópia, vá para as seções a seguir, respectivamente.
- General (Geral)
- Source
- Destino
- Mapeamento
- Administração
Geral
Consulte as orientações de configurações gerais para configurar a guia Configurações gerais.
Source
As propriedades a seguir têm suporte para o Armazenamento de Blobs do Azure na guia Origem de uma atividade de cópia.
As seguintes propriedades são necessárias:
- Tipo de armazenamento de dados: Selecione Externo.
- Conexão: selecione uma conexão de Armazenamento de Blob do Azure na lista de conexões. Se nenhuma conexão existir, crie uma nova conexão de Armazenamento de Blob do Azure selecionando Novo.
- Caminho do arquivo: selecione Procurar para escolher o arquivo que deseja copiar ou preencha o caminho manualmente.
- Configurações de arquivo: Selecione Configurações de arquivo para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Tipo de caminho de arquivo: Você pode escolher Caminho de arquivo, Prefixo, Caminho de arquivo curinga, Lista de arquivos como seu tipo de caminho de arquivo. A configuração de cada configuração é:
Caminho do arquivo: Se você escolher esse tipo, os dados poderão ser copiados do contêiner ou caminho de pasta/arquivo especificado anteriormente.
Prefixo: prefixo para o nome do blob sob o contêiner fornecido configurado para filtrar blobs de origem. Os blobs cujos nomes começam com
container/this_prefix
são selecionados. Ele utiliza o filtro do lado do serviço para armazenamento de blobs.Quando você usa Prefixo e opta por copiar para um destino baseado em arquivo com hierarquia de preservação, o subcaminho após o último "/" no prefixo é preservado. Por exemplo, você tem uma origem
container/folder/subfolder/file.txt
e configura o prefixo comofolder/sub
, então o caminho do arquivo preservado ésubfolder/file.txt
.Caminho do arquivo curinga: especifique a pasta ou o caminho do arquivo com caracteres curinga sob o contêiner de blob fornecido para filtrar as pastas ou arquivos de origem.
Os curingas permitidos são
*
(corresponde a zero ou mais caracteres) e?
(corresponde a zero ou caractere único). Use^
para escapar se o nome da pasta tiver um curinga ou esse caractere de escape dentro. Para obter mais exemplos, vá para Exemplos de filtro de pasta e arquivo.Caminho da pasta curinga: especifique o caminho da pasta com caracteres curinga sob o contêiner fornecido para filtrar as pastas de origem.
Nome do arquivo curinga: especifique o nome do arquivo com caracteres curinga sob o contêiner e o caminho da pasta (ou caminho da pasta curinga) para filtrar os arquivos de origem.
Lista de arquivos: indica um determinado conjunto de arquivos para o qual copiar. Em Caminho para a lista de arquivos, insira ou navegue até um arquivo de texto que inclua uma lista de arquivos que você deseja copiar, um arquivo por linha, que é o caminho relativo para cada arquivo.
Quando estiver a utilizar esta opção, não especifique um nome de ficheiro. Para obter mais exemplos, vá para Exemplos de lista de arquivos.
Recursivamente: Se essa caixa de seleção estiver marcada, todos os arquivos na pasta de entrada e suas subpastas serão processados recursivamente. Se você desmarcar a caixa de seleção, apenas os que estão na pasta selecionada serão processados. Essa configuração é desabilitada quando um único arquivo é selecionado.
Excluir arquivos após a conclusão: Se essa caixa de seleção estiver marcada, os arquivos binários serão excluídos do armazenamento de origem depois de serem movidos com êxito para o armazenamento de destino. A exclusão de arquivo é por arquivo, portanto, quando a atividade de cópia falhar, você notará que alguns arquivos já foram copiados para o destino e excluídos da origem, enquanto outros ainda permanecem no armazenamento de origem.
Nota
Essa propriedade só é válida em um cenário de cópia de arquivos binários.
Máximo de conexões simultâneas: esta propriedade indica o limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Destino
As propriedades a seguir têm suporte para o Armazenamento de Blobs do Azure na guia Destino de uma atividade de cópia.
As seguintes propriedades são necessárias:
- Tipo de armazenamento de dados: Selecione Externo.
- Conexão: selecione uma conexão de Armazenamento de Blob do Azure na lista de conexões. Se a conexão não existir, crie uma nova conexão de Armazenamento de Blob do Azure selecionando Novo.
- Caminho do arquivo: Selecione Procurar para escolher o arquivo que deseja copiar ou preencher o caminho manualmente.
- Configurações de arquivo: Selecione Configurações de arquivo para configurar o formato de arquivo. Para configurações de diferentes formatos de arquivo, consulte os artigos em Formato suportado para obter informações detalhadas.
Em Avançado, você pode especificar os seguintes campos:
Comportamento de cópia: define o comportamento de cópia quando a origem são arquivos de um armazenamento de dados baseado em arquivo. Você pode escolher Adicionar conteúdo dinâmico, Nenhum, Nivelar hierarquia ou Preservar hierarquia na lista suspensa.
Adicionar conteúdo dinâmico: para especificar uma expressão para um valor de propriedade, selecione Adicionar conteúdo dinâmico. Esta seleção abre o construtor de expressões onde você pode criar expressões a partir de variáveis de sistema suportadas, saída de atividade, funções e variáveis ou parâmetros especificados pelo usuário. Para obter informações sobre a linguagem de expressão, vá para Expressões e funções.
Nenhum: escolha esta seleção para não usar nenhum comportamento de cópia.
Nivelar a hierarquia: Todos os arquivos da pasta de origem estão no primeiro nível da pasta de destino. Os arquivos de destino têm nomes gerados automaticamente.
Preservar hierarquia: preserva a hierarquia de arquivos na pasta de destino. O caminho relativo do arquivo de origem para a pasta de origem é idêntico ao caminho relativo do arquivo de destino para a pasta de destino.
Máximo de conexões simultâneas: o limite superior de conexões simultâneas estabelecido para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas.
Tamanho do bloco (MB): especifique o tamanho do bloco, em megabytes, usado para gravar dados em blobs de bloco. Para obter mais informações, vá para Sobre blobs de bloco.
Metadados: defina metadados personalizados ao copiar para um destino. Cada objeto sob a
metadata
matriz representa uma coluna extra. Oname
define o nome da chave de metadados e indica ovalue
valor de dados dessa chave. Se orecurso preservar atributos for usado, os metadados especificados serão unidos/substituídos pelos metadados do arquivo de origem.Os valores de dados permitidos são:
$$LASTMODIFIED
: uma variável reservada indica para armazenar a hora da última modificação dos arquivos de origem. Aplique apenas à fonte baseada em arquivo com formato binário.Expression
Valor estático
Mapeamento
Para Configuração da guia Mapeamento, vá para Configurar seus mapeamentos na guia Mapeamento. Se você escolher Binário como formato de arquivo, o mapeamento não será suportado.
Definições
Para a configuração da guia Configurações , consulte Configurar suas outras configurações na guia configurações.
Resumo da tabela
As tabelas a seguir contêm mais informações sobre a atividade de cópia no Armazenamento de Blobs do Azure.
Fonte da informação
Nome | Descrição | valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o armazenamento de dados de origem. | <A sua ligação> | Sim | ligação |
Caminho do ficheiro | O caminho do arquivo dos dados de origem. | <caminho do arquivo da sua origem> | Sim | contentor fileName |
Tipo de caminho de arquivo | O tipo de caminho de arquivo que você deseja usar. | • Caminho do arquivo • Prefixo • Caminho da pasta curinga, nome do arquivo curinga • Lista de ficheiros |
Não | • prefixo • wildcardFolderPath, wildcardFileName • fileListPath |
Recursivamente | Processe todos os arquivos na pasta de entrada e suas subpastas recursivamente ou apenas os da pasta selecionada. Essa configuração é desabilitada quando um único arquivo é selecionado. | Selecionado ou desmarcado | Não | recursiva |
Excluir arquivos após a conclusão | Os arquivos no armazenamento de dados de origem serão excluídos logo após serem movidos para o armazenamento de destino. A exclusão de arquivo é por arquivo, portanto, quando uma atividade de cópia falha, você pode dizer que alguns arquivos já foram copiados para o destino e excluídos da origem, enquanto outros ainda estão no armazenamento de origem. | Selecionado ou desmarcado | Não | deleteFilesAfterCompletion |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Informações sobre o destino
Nome | Descrição | valor | Obrigatório | Propriedade de script JSON |
---|---|---|---|---|
Tipo de armazenamento de dados | Seu tipo de armazenamento de dados. | Externa | Sim | / |
Ligação | Sua conexão com o armazenamento de dados de destino. | <A sua ligação> | Sim | ligação |
Caminho do ficheiro | O caminho do arquivo dos dados de destino. | Caminho do arquivo da origem | Sim | contentor fileName |
Comportamento de cópia | Define o comportamento ao copiar arquivos de um sistema de arquivos, como armazenamento, para o outro (por exemplo, de um armazenamento de blob para outro). | • Nenhum • Adicione conteúdo dinâmico • Achatar a hierarquia • Preservar a hierarquia |
Não | copyBehavior |
Máximo de conexões simultâneas | O limite superior de conexões simultâneas estabelecidas para o armazenamento de dados durante a execução da atividade. Especifique um valor somente quando quiser limitar conexões simultâneas. | <Máximo de conexões simultâneas> | Não | maxConcurrentConnections |
Tamanho do bloco (MB) | Especifique o tamanho do bloco em MB ao gravar dados no Armazenamento de Blobs do Azure. O valor permitido está entre 4 MB e 100 MB. | <tamanho do bloco> | Não | blockSizeInMB |
Metadados | Defina os metadados personalizados quando copiar para o destino. | • $$LASTMODIFIED • Expressão • Valor estático |
Não | do IdP |