Exercício: usar a atividade de cópia de data factory

Concluído

Depois que a criação da instância de Data Factory for concluída, você poderá ir para o recurso em que você pode começar a criar seus pipelines de dados clicando no botão Criar e Monitorar. Isso abrirá a seguinte tela:

Authoring in Azure Data Factory

A primeira etapa no pipeline é criar uma atividade Copy que copie dados entre a origem e o destino usando as etapas a seguir.

  1. Abra a tela de criação clicando no ícone de lápis na barra lateral esquerda ou no botão Criar pipeline para abrir a tela de criação.

    Screenshot that shows the Create pipeline option highlighted.

  2. Criar o pipeline. Clique no botão + no painel Recursos do Alocador e selecione Pipeline.

    Screenshot that shows Factory Resources under the Data Factory tab. The plus symbol is selected, exposing Pipeline, both are highlighted.

  3. Adicione uma atividade Copy. No painel Atividades, abra o acordeão Mover e Transformar e arraste a atividade Copy Data para a tela do pipeline.

    Using the Copy Activity

Com a atividade Copy adicionada, você começa a definir os dados de origem

  1. Na guia Origem das configurações da atividade Copy, clique em + Novo para selecionar uma fonte de dados.

    Creating as data source

  2. Por exemplo, na lista armazenamento de dados, selecione o bloco Amazon S3 e clique em Continuar

    Select Amazon S3 as a data source

  3. Na lista formatos de arquivo, selecione o bloco de formato DelimitedText e clique em Continuar

    Screenshot that shows Delimited Text selected in the Select format list.

  4. Na janela Definir Propriedades, dê um nome compreensível ao seu conjunto de dados e clique na lista suspensa Serviço Vinculado. Se você não tiver criado o Serviço Vinculado do S3, selecione Novo.

    Screenshot that shows the Set Properties window, with filter highlighted under Linked service.

  5. Específico para o painel de configuração de serviço vinculado S3, especifique sua chave de acesso S3 e a chave secreta. O serviço do Data Factory criptografa as credenciais com certificados gerenciados pela Microsoft. Para obter mais informações, confira Considerações de segurança da movimentação de dados. Para verificar se suas credenciais são válidas, clique em Testar Conexão. Clique em Criar quando terminar.

    Setting data source access with keys

  6. Depois de criar e selecionar o serviço vinculado, especifique o restante das suas configurações de conjunto de dados. Essas configurações especificam como e de que local em sua conexão você deseja extrair os dados. Clique em Concluir ao terminar.

    Finishing up data source settings

  7. Para verificar se seu conjunto de dados está configurado corretamente, clique em Visualizar Dados na guia Origem da atividade Copy para obter um pequeno instantâneo dos dados.

    Previewing data

Com os dados de origem definidos, você vai definir o coletor no qual os dados serão carregados. Neste exemplo, o coletor será Azure Data Lake Storage Gen2 executando as seguintes etapas:

  1. Na guia Coletor, clique em + Novo

    Defining a data sink in the Copy Activity

  2. Selecione o bloco Azure Data Lake Storage Gen2 e clique em continuar

    Defining the dataset

  3. Na navegação lateral Definir Propriedades, dê um nome compreensível ao seu conjunto de dados e clique na lista suspensa Serviço Vinculado. Se você não tiver criado o Serviço Vinculado do ADLS, selecione Novo.

    Setting the dataset properties

  4. No painel de configuração do serviço vinculado do ADLS, selecione o método de autenticação e Insira suas credenciais. No exemplo a seguir, uma chave de conta e minha conta de armazenamento selecionada na lista suspensa.

    Finalizing the dataset properties

  5. Depois de configurar o serviço vinculado, insira na configuração de conjunto de dados do ADLS. Clique em concluir ao terminar.

    Finish the dataset properties

Neste ponto, você configurou totalmente sua atividade Copy.

  1. Para testá-la, clique no botão Depurar na parte superior da tela do pipeline. Isso iniciará uma execução de depuração de pipeline.

    Testing the Copy Activity

  2. Para monitorar o progresso de uma execução de depuração de pipeline, clique na guia Saída do pipeline

    Monitoring the Copy Activity

  3. Para ver uma descrição mais detalhada da saída da atividade, clique no ícone de óculos. Isso abrirá a tela de monitoramento de cópia, que fornece métricas úteis, como dados lidos/gravados, taxa de transferência e estatísticas de duração detalhada.

    Viewing the Copy Activity Results

Para verificar se a cópia funcionou conforme o esperado, abra sua conta de armazenamento do ADLS Gen2 e verifique se o arquivo foi gravado conforme o esperado