Partilhar via


Início Rápido: mova e transforme dados com fluxos e pipelines de dados

Neste tutorial, você descobre como a experiência de fluxo de dados e pipeline de dados pode criar uma solução de Data Factory poderosa e abrangente.

Pré-requisitos

Para começar, você deve ter os seguintes pré-requisitos:

Fluxos de dados em comparação com linhas de processamento

O Dataflows Gen2 permite que você use uma interface low-code e 300+ transformações baseadas em IA para limpar, preparar e transformar dados facilmente com mais flexibilidade do que qualquer outra ferramenta. Os pipelines de dados permitem recursos avançados de orquestração de dados prontos para compor fluxos de trabalho de dados flexíveis que atendem às necessidades da sua empresa. Em um pipeline, você pode criar agrupamentos lógicos de atividades que executam uma tarefa, o que pode incluir chamar um fluxo de dados para limpar e preparar seus dados. Embora haja alguma sobreposição de funcionalidade entre os dois, a escolha de qual usar para um cenário específico depende se você precisa da riqueza total de pipelines ou pode usar os recursos mais simples, mas mais limitados, dos fluxos de dados. Para obter mais informações, consulte o guia de decisão do Fabric

Transforme dados com fluxos de dados

Siga estas etapas para configurar seu fluxo de dados.

Etapa 1: Criar um fluxo de dados

  1. Escolha o seu espaço de trabalho habilitado para o Fabric e, em seguida, selecione Novo. Em seguida, selecione Dataflow Gen2.

    Captura de tela mostrando por onde começar a criar um fluxo de dados gen2.

  2. A janela do editor de fluxo de dados é exibida. Selecione o cartão Importar do SQL Server.

    Captura de tela mostrando a janela do editor de fluxo de dados.

Etapa 2: Obter dados

  1. No diálogo Conectar à fonte de dados apresentado a seguir, insira os detalhes para se conectar ao seu banco de dados SQL do Azure e selecione Seguinte. Neste exemplo, utiliza-se o AdventureWorksLT banco de dados de exemplo configurado ao configurar o banco de dados SQL do Azure nos requisitos prévios.

    Captura de tela mostrando como se conectar a um banco de dados SQL do Azure.

  2. Selecione os dados que pretende transformar e, em seguida, selecione Criar. Para este início rápido, selecione SalesLT.Customer dos dados de exemplo AdventureWorksLT fornecidos para o Azure SQL DB, e então clique no botão Selecionar tabelas relacionadas para incluir automaticamente duas outras tabelas relacionadas.

    Captura de tela mostrando onde escolher entre os dados disponíveis.

Etapa 3: Transforme seus dados

  1. Se não estiver selecionado, selecione o botão Vista de Diagrama ao longo da barra de estado na parte inferior da página ou selecione Vista de Diagrama no menu Vista na parte superior do editor do Power Query. Qualquer uma destas opções pode alternar a visualização do diagrama.

    Captura de ecrã a mostrar onde selecionar a vista de diagrama.

  2. Clique com o botão direito na consulta SalesLT Customer ou selecione o ícone de três pontos à direita da consulta e, em seguida, selecione Mesclar consultas.

    Captura de tela mostrando onde encontrar a opção Mesclar consultas.

  3. Configure a mesclagem selecionando a tabela SalesLTOrderHeader como a tabela direita para a mesclagem, a coluna CustomerID de cada tabela como a coluna de junção e Externa à Esquerda como o tipo de junção. Em seguida, selecione OK para adicionar a consulta de mesclagem.

    Captura de ecrã do ecrã de configuração de Mesclagem.

  4. Selecione o botão Adicionar destino de dados, que se parece com um símbolo de banco de dados com uma seta acima dele, na nova consulta de mesclagem que você criou. Em seguida, selecione banco de dados SQL do Azure como o tipo de destino.

    Captura de tela destacando o botão Adicionar destino de dados na consulta de mesclagem recém-criada.

  5. Forneça os detalhes para sua conexão de banco de dados SQL do Azure onde a consulta de mesclagem deve ser publicada. Neste exemplo, você também pode usar o banco de dados AdventureWorksLT que usamos como fonte de dados para o destino.

    Captura de tela mostrando a caixa de diálogo Conectar ao destino de dados com valores de exemplo preenchidos.

  6. Escolha um banco de dados para armazenar os dados e forneça um nome de tabela e, em seguida, selecione Avançar.

    Captura de tela mostrando a janela Escolher destino de destino.

  7. Você pode deixar as configurações padrão na caixa de diálogo Escolher configurações de destino e apenas selecionar Salvar configurações sem fazer nenhuma alteração aqui.

    Captura de tela mostrando a caixa de diálogo Escolher configurações de destino.

  8. Selecione Publicar novamente na página do editor de fluxo de dados para publicar o fluxo de dados.

    Captura de tela destacando o botão Publicar no editor gen2 de fluxo de dados.

Mover dados com fluxos de dados

Agora que criaste um Dataflow Gen2, podes trabalhar com ele num pipeline. Neste exemplo, você copia os dados gerados do fluxo de dados para o formato de texto em uma conta de Armazenamento de Blob do Azure.

Etapa 1: Criar um novo pipeline de dados

  1. No espaço de trabalho, selecione Novoe depois selecione pipeline de dados.

    Captura de tela mostrando onde iniciar um novo pipeline de dados.

  2. Nomeie seu pipeline e selecione Criar.

    Captura de tela mostrando o novo prompt de criação de pipeline com um nome de pipeline de exemplo.

Etapa 2: Configurar o fluxo de dados

  1. Adicione uma nova atividade de fluxo de dados ao seu pipeline de dados ao selecionar Fluxo de Dados no separador Atividades.

    Captura de tela mostrando onde selecionar a opção Fluxo de dados.

  2. Selecione o fluxo de dados na tela do pipeline e, em seguida, a guia de Configurações. Escolha o fluxo de dados criado anteriormente na lista suspensa.

    Captura de tela mostrando como escolher o fluxo de dados que você criou.

  3. Selecione Salvare, em seguida, Executar para executar o fluxo de dados para preencher inicialmente sua tabela de consulta mesclada que você criou na etapa anterior.

    Captura de tela mostrando onde selecionar Executar.

Etapa 3: Usar o assistente de cópia para adicionar uma atividade de cópia

  1. Selecione Copiar dados na tela para abrir a ferramenta Assistente de Cópia para começar. Ou selecione Usar assistente de cópia na lista suspensa Copiar dados sob a aba Atividades na faixa de opções.

    Captura de tela mostrando as duas maneiras de acessar o assistente de cópia.

  2. Escolha sua fonte de dados selecionando um tipo de fonte de dados. Neste tutorial, você usa o Banco de Dados SQL do Azure usado anteriormente quando criou o fluxo de dados para gerar uma nova consulta de mesclagem. Role para baixo abaixo das ofertas de dados de exemplo e selecione a guia do Azure e, em seguida, Banco de Dados SQL do Azure. Em seguida, selecione Avançar para continuar.

    Captura de tela mostrando onde escolher uma fonte de dados.

  3. Crie uma conexão com sua fonte de dados selecionando Criar nova conexão. Preencha as informações de conexão necessárias no painel e insira o AdventureWorksLT para o banco de dados, onde geramos a consulta de mesclagem no fluxo de dados. Em seguida, selecione Avançar.

    Captura de tela mostrando onde criar uma nova conexão.

  4. Selecione a tabela gerada na etapa de fluxo de dados anterior e, em seguida, selecione Avançar.

    Captura de tela mostrando como selecionar entre as tabelas disponíveis.

  5. Para o seu destino, escolha Armazenamento de Blobs do Azure e selecione Avançar.

    Captura de tela mostrando o destino de dados do Armazenamento de Blobs do Azure.

  6. Crie uma conexão com seu destino selecionando Criar nova conexão. Forneça os detalhes da sua ligação e, em seguida, selecione Seguinte.

    Captura de tela mostrando como criar uma conexão.

  7. Selecione o caminho da pasta e forneça um nome de arquivo e, em seguida, selecione Avançar.

    Captura de tela mostrando como selecionar o caminho da pasta e o nome do arquivo.

  8. Selecione Avançar novamente para aceitar o formato de arquivo padrão, delimitador de coluna, delimitador de linha e tipo de compactação, opcionalmente incluindo um cabeçalho.

    Captura de tela mostrando as opções de configuração para o arquivo no Armazenamento de Blobs do Azure.

  9. Finalize suas configurações. Em seguida, revise e selecione Salvar + Executar para concluir o processo.

    Captura de ecrã a mostrar como rever as definições de cópia de dados.

Etapa 5: Projetar seu pipeline de dados e salvar para executar e carregar dados

  1. Para executar a atividade Copy após a atividade Dataflow , arraste de Succeeded na atividade Dataflow para a atividade Copy . A atividade Copy só é executada depois que a atividade Dataflow tiver sucesso.

    Captura de tela mostrando como fazer o fluxo de dados ser executado após a atividade de cópia.

  2. Selecione Guardar para guardar o seu pipeline de dados. Em seguida, selecione Executar para executar o pipeline de dados e carregar os dados.

    Captura de tela mostrando onde selecionar Salvar e Executar.

Programar a execução do pipeline

Depois de concluir o desenvolvimento e o teste do pipeline, você pode programá-lo para ser executado automaticamente.

  1. Na guia Home da janela do editor de pipeline, selecione Agenda.

    Uma captura de ecrã do botão 'Agendar' no menu da aba 'Página Inicial' no editor de pipeline.

  2. Configure a agenda conforme necessário. O exemplo aqui agenda o pipeline para ser executado diariamente às 20:00 até ao fim do ano.

    Captura de tela mostrando a configuração de programação para um pipeline ser executado diariamente às 20:00 até o final do ano.

Este exemplo mostra como criar e configurar um Dataflow Gen2 para criar uma consulta de mesclagem e armazená-la em um banco de dados SQL do Azure e, em seguida, copiar dados do banco de dados para um arquivo de texto no Armazenamento de Blobs do Azure. Você aprendeu a:

  • Crie um fluxo de dados.
  • Transforme dados com o fluxo de dados.
  • Crie um canal de dados usando o fluxo de dados.
  • Ordenar a execução das etapas no pipeline.
  • Copie dados com o Assistente de Cópia.
  • Execute e agende seu pipeline de dados.

Em seguida, avance para saber mais sobre como monitorizar as suas execuções de pipelines.