Exercício: usar a atividade de cópia de data factory
Depois que a criação da instância de Data Factory for concluída, você poderá ir para o recurso em que você pode começar a criar seus pipelines de dados clicando no botão Criar e Monitorar. Isso abrirá a seguinte tela:
A primeira etapa no pipeline é criar uma atividade Copy que copie dados entre a origem e o destino usando as etapas a seguir.
Abra a tela de criação clicando no ícone de lápis na barra lateral esquerda ou no botão Criar pipeline para abrir a tela de criação.
Criar o pipeline. Clique no botão + no painel Recursos do Alocador e selecione Pipeline.
Adicione uma atividade Copy. No painel Atividades, abra o acordeão Mover e Transformar e arraste a atividade Copy Data para a tela do pipeline.
Com a atividade Copy adicionada, você começa a definir os dados de origem
Na guia Origem das configurações da atividade Copy, clique em + Novo para selecionar uma fonte de dados.
Por exemplo, na lista armazenamento de dados, selecione o bloco Amazon S3 e clique em Continuar
Na lista formatos de arquivo, selecione o bloco de formato DelimitedText e clique em Continuar
Na janela Definir Propriedades, dê um nome compreensível ao seu conjunto de dados e clique na lista suspensa Serviço Vinculado. Se você não tiver criado o Serviço Vinculado do S3, selecione Novo.
Específico para o painel de configuração de serviço vinculado S3, especifique sua chave de acesso S3 e a chave secreta. O serviço do Data Factory criptografa as credenciais com certificados gerenciados pela Microsoft. Para obter mais informações, confira Considerações de segurança da movimentação de dados. Para verificar se suas credenciais são válidas, clique em Testar Conexão. Clique em Criar quando terminar.
Depois de criar e selecionar o serviço vinculado, especifique o restante das suas configurações de conjunto de dados. Essas configurações especificam como e de que local em sua conexão você deseja extrair os dados. Clique em Concluir ao terminar.
Para verificar se seu conjunto de dados está configurado corretamente, clique em Visualizar Dados na guia Origem da atividade Copy para obter um pequeno instantâneo dos dados.
Com os dados de origem definidos, você vai definir o coletor no qual os dados serão carregados. Neste exemplo, o coletor será Azure Data Lake Storage Gen2 executando as seguintes etapas:
Na guia Coletor, clique em + Novo
Selecione o bloco Azure Data Lake Storage Gen2 e clique em continuar
Na navegação lateral Definir Propriedades, dê um nome compreensível ao seu conjunto de dados e clique na lista suspensa Serviço Vinculado. Se você não tiver criado o Serviço Vinculado do ADLS, selecione Novo.
No painel de configuração do serviço vinculado do ADLS, selecione o método de autenticação e Insira suas credenciais. No exemplo a seguir, uma chave de conta e minha conta de armazenamento selecionada na lista suspensa.
Depois de configurar o serviço vinculado, insira na configuração de conjunto de dados do ADLS. Clique em concluir ao terminar.
Neste ponto, você configurou totalmente sua atividade Copy.
Para testá-la, clique no botão Depurar na parte superior da tela do pipeline. Isso iniciará uma execução de depuração de pipeline.
Para monitorar o progresso de uma execução de depuração de pipeline, clique na guia Saída do pipeline
Para ver uma descrição mais detalhada da saída da atividade, clique no ícone de óculos. Isso abrirá a tela de monitoramento de cópia, que fornece métricas úteis, como dados lidos/gravados, taxa de transferência e estatísticas de duração detalhada.
Para verificar se a cópia funcionou conforme o esperado, abra sua conta de armazenamento do ADLS Gen2 e verifique se o arquivo foi gravado conforme o esperado