Módulo 1: criar um pipeline com o Data Factory
Esse módulo leva 10 minutos, ingerindo dados brutos do armazenamento de origem na tabela Bronze de um data lakehouse usando a atividade Copy em um pipeline.
As etapas de alto nível no módulo 1 são as seguintes:
- Criar um pipeline de dados.
- Usar uma atividade Copy no pipeline para carregar dados de exemplo em um data lakehouse.
Criar um pipeline de dados
É necessária uma conta de locatário do Microsoft Fabric com uma assinatura ativa. Criar uma conta gratuita.
Certifique-se que você tenha um workspace habilitado para o Microsoft Fabric: Criar um workspace.
Entre no Power BI.
Selecione o ícone padrão do Power BI na parte inferior esquerda da tela e alterne para a experiência do Data Factory.
Selecione Pipeline de dados e forneça um nome de pipeline. Em seguida, selecione Criar.
Use uma atividade Copy no pipeline para carregar dados de exemplo em um data lakehouse
Etapa 1: use o assistente de cópia para configurar uma atividade Copy.
Selecione Copiar dados para abrir a ferramenta do assistente de cópia.
Etapa 2: Defina suas configurações no assistente de cópia.
A caixa de diálogo Copiar dados é exibida com a primeira etapa, Escolher fonte de dados, realçada. Role para baixo, se necessário, até a seção Fontes de dados e selecione o tipo de fonte de dados Armazenamento de Blobs do Azure. Em seguida, selecione Avançar.
Na próxima etapa, selecione Criar nova conexão e, em seguida, forneça a URL do armazenamento de blob que hospeda os dados de exemplo fornecidos para este tutorial, em
https://nyctaxisample.blob.core.windows.net/sample
. O tipo de autenticação é Anônimo. Selecione Avançar depois de fornecer a URL.A etapa Conectar-se à fonte de dados é exibida e, inicialmente, você vê um erro Não é possível listar arquivos porque as permissões só foram concedidas à pasta de exemplo no armazenamento de blobs. Forneça o nome da pasta, amostra, e selecione Repetir.
Observação
A pasta de armazenamento de blobs diferencia maiúsculas de minúsculas e deve estar em letras minúsculas.
O navegador de armazenamento de blobs é exibido em seguida. Selecione o arquivo NYC-Taxi-Green-2015-01.parquet e aguarde até que a versão prévia dos dados seja exibida. Em seguida, selecione Avançar.
Na etapa Escolher destino dos dados do assistente de cópia, selecione Lakehouse e, em seguida, Avançar.
Selecione Criar novo Lakehouse na página de configuração do destino de dados exibida e insira um nome para o novo Lakehouse. Em seguida, selecione Avançar novamente.
Agora, configure os detalhes do destino do Lakehouse na página Selecionar e mapear para o caminho da pasta ou tabela. Selecione Tabelas para a Pasta raiz, forneça um nome de tabela e escolha a ação Substituir. Não marque a caixa de seleção Habilitar partição que aparece depois que você seleciona a ação Substituir tabela.
Por fim, na página Revisar + salvar do assistente de cópia de dados, revise a configuração. Para este tutorial, desmarque a caixa de seleção Iniciar transferência de dados imediatamente, pois executaremos a atividade manualmente na próxima etapa. Depois, selecione OK.
Etapa 3: Execute e exiba os resultados de sua atividade Copy.
Selecione a guia Executar no editor de pipeline. Em seguida, selecione o botão Executar e, em seguida, Salvar e executar no prompt, para executar a atividade Copy.
Você pode monitorar a execução e verificar os resultados na guia Saída abaixo da tela do pipeline. Selecione o botão de detalhes da execução (o ícone de "óculos" que aparece quando você passa o mouse sobre a execução do pipeline em andamento) para exibir os detalhes da execução.
Os detalhes da execução mostram 1.508.501 linhas lidas e gravadas.
Expanda a seção Detalhamento da duração para ver a duração de cada fase da atividade Copy. Após revisar os detalhes da cópia, selecione Fechar.
Conteúdo relacionado
Neste primeiro módulo do nosso tutorial de ponta a ponta para a sua primeira integração de dados usando o Data Factory no Microsoft Fabric, você aprendeu a:
- Criar um pipeline de dados.
- Adicionar uma atividade Copy ao seu pipeline.
- Usar dados de exemplo e criar um Lakehouse de dados para armazenar os dados em uma nova tabela.
- Executar o pipeline e exibir seus detalhes e o detalhamento da duração.
Vá para a próxima seção para criar seu fluxo de dados.