Partilhar via


Guia de início rápido: transformar dados usando fluxos de dados de mapeamento

Neste guia de início rápido, você usará o Azure Synapse Analytics para criar um pipeline que transforma dados de uma fonte do Azure Data Lake Storage Gen2 (ADLS Gen2) em um coletor do ADLS Gen2 usando o fluxo de dados de mapeamento. O padrão de configuração neste início rápido pode ser expandido ao transformar dados usando o fluxo de dados de mapeamento

Neste início rápido, você executa as seguintes etapas:

  • Crie um pipeline com uma atividade de Fluxo de Dados no Azure Synapse Analytics.
  • Crie um fluxo de dados de mapeamento com quatro transformações.
  • Testar a execução do pipeline.
  • Monitorar uma atividade de fluxo de dados

Pré-requisitos

  • Assinatura do Azure: se você não tiver uma assinatura do Azure, crie uma conta gratuita do Azure antes de começar.

  • Espaço de trabalho do Azure Synapse: crie um espaço de trabalho Synapse usando o portal do Azure seguindo as instruções em Guia de início rápido : criar um espaço de trabalho Synapse.

  • Conta de armazenamento do Azure: você usa o armazenamento ADLS como armazenamentos de dados de origem e coletor . Se não tiver uma conta de armazenamento, veja Criar uma conta de armazenamento do Azure para seguir os passos para criar uma.

    O arquivo que estamos transformando neste tutorial é MoviesDB.csv, que pode ser encontrado aqui. Para recuperar o arquivo do GitHub, copie o conteúdo para um editor de texto de sua escolha para salvar localmente como um arquivo .csv. Para carregar o ficheiro para a sua conta de armazenamento, consulte Carregar blobs com o portal do Azure. Os exemplos farão referência a um recipiente chamado 'sample-data'.

Depois que seu espaço de trabalho do Azure Synapse for criado, você terá duas maneiras de abrir o Synapse Studio:

  • Abra seu espaço de trabalho Synapse no portal do Azure. Selecione Abrir no cartão Open Synapse Studio em Introdução.
  • Abra o Azure Synapse Analytics e inicie sessão na sua área de trabalho.

Neste início rápido, usamos o espaço de trabalho chamado "adftest2020" como exemplo. Ele irá navegar automaticamente para a página inicial do Synapse Studio.

Página inicial do Synapse Studio

Criar um pipeline com uma atividade de Fluxo de Dados

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta seção, você criará um pipeline que contém uma atividade de Fluxo de Dados.

  1. Selecione o ícone de adição ao lado do cabeçalho dos pipelines e selecione Pipeline.

    Criar um novo pipeline

  2. Na página Configurações de propriedades do pipeline, digite TransformMovies para Name.

  3. Em Mover e Transformar no painel Atividades, arraste Fluxo de dados para a tela do pipeline.

  4. Na página pop-up Adicionando fluxo de dados, selecione Criar novo fluxo de dados ->Fluxo de dados. Selecione OK quando terminar.

    Criar um fluxo de dados

  5. Nomeie seu fluxo de dados como TransformMovies na página Propriedades .

Criar lógica de transformação na tela de fluxo de dados

Depois de criar seu fluxo de dados, você será enviado automaticamente para a tela de fluxo de dados. Nesta etapa, você criará um fluxo de dados que leva o MoviesDB.csv no armazenamento ADLS e agrega a classificação média de comédias de 1910 a 2000. Em seguida, você gravará esse arquivo de volta no armazenamento ADLS.

  1. Acima da tela de fluxo de dados, deslize o controle deslizante de depuração de fluxo de dados. O modo de depuração permite testes interativos da lógica de transformação em um cluster Spark ao vivo. Os clusters de Fluxo de Dados levam de 5 a 7 minutos para aquecer e os usuários são recomendados a ativar a depuração primeiro se planejarem fazer o desenvolvimento do Fluxo de Dados. Para obter mais informações, consulte Modo de depuração.

    Deslize a depuração para cima

  2. Na tela de fluxo de dados, adicione uma fonte clicando na caixa Adicionar fonte .

  3. Nomeie sua fonte como MoviesDB. Selecione Novo para criar um novo conjunto de dados de origem.

    Criar um novo conjunto de dados de origem

  4. Escolha Azure Data Lake Storage Gen2. Selecione Continuar.

    Escolha Azure Data Lake Storage Gen2

  5. Escolha DelimitedText. Selecione Continuar.

  6. Nomeie seu conjunto de dados como MoviesDB. Na lista suspensa do serviço vinculado, escolha Novo.

  7. Na tela de criação de serviço vinculado, nomeie seu serviço vinculado ADLS Gen2 ADLSGen2 e especifique seu método de autenticação. Em seguida, insira suas credenciais de conexão. Neste guia de início rápido, estamos usando a chave de conta para nos conectarmos à nossa conta de armazenamento. Você pode selecionar Testar conexão para verificar se suas credenciais foram inseridas corretamente. Quando terminar, selecione Criar.

    Criar um serviço vinculado de origem

  8. Quando estiver de volta à tela de criação do conjunto de dados, no campo Caminho do arquivo, insira onde o arquivo está localizado. Neste início rápido, o arquivo "MoviesDB.csv" está localizado no contêiner "sample-data". Como o arquivo tem cabeçalhos, marque Primeira linha como cabeçalho. Selecione Da conexão/armazenamento para importar o esquema de cabeçalho diretamente do arquivo no armazenamento. Selecione OK quando terminar.

    Definições do conjunto de dados de origem

  9. Se o cluster de depuração tiver sido iniciado, vá para a guia Visualização de Dados da transformação de origem e selecione Atualizar para obter um instantâneo dos dados. Você pode usar a visualização de dados para verificar se sua transformação está configurada corretamente.

    Pré-visualização de dados

  10. Ao lado do nó de origem na tela de fluxo de dados, selecione o ícone de adição para adicionar uma nova transformação. A primeira transformação que você está adicionando é um filtro.

    Adicionar um filtro

  11. Nomeie sua transformação de filtro como FilterYears. Selecione a caixa de expressão ao lado de Filtrar em para abrir o construtor de expressões. Aqui você especificará sua condição de filtragem.

  12. O construtor de expressões de fluxo de dados permite criar interativamente expressões para usar em várias transformações. As expressões podem incluir funções internas, colunas do esquema de entrada e parâmetros definidos pelo usuário. Para obter mais informações sobre como criar expressões, consulte Construtor de expressões de fluxo de dados.

    Neste início rápido, você quer filtrar filmes de comédia de gênero que saíram entre os anos 1910 e 2000. Como ano é atualmente uma cadeia de caracteres, você precisa convertê-lo em um inteiro usando a toInteger() função. Use os operadores maior que ou igual a (>=) e menor ou igual a (<=) para comparar com os valores literais do ano 1910 e 200-. Unifique estas expressões com o && (e) operador. A expressão surge como:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Para descobrir quais filmes são comédias, você pode usar a função para encontrar o rlike() padrão 'Comédia' nos gêneros da coluna. Unifique a rlike expressão com a comparação do ano para obter:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Especificar condição de filtragem

    Se você tiver um cluster de depuração ativo, poderá verificar sua lógica clicando em Atualizar para ver a saída da expressão em comparação com as entradas usadas. Há mais de uma resposta certa sobre como você pode realizar essa lógica usando a linguagem de expressão de fluxo de dados.

    Selecione Salvar e Concluir quando terminar a expressão.

  13. Obtenha uma Pré-visualização de Dados para verificar se o filtro está a funcionar corretamente.

  14. A próxima transformação que você adicionará é uma transformação Agregada em Modificador de esquema.

    Adicionar um agregado

  15. Nomeie sua transformação agregada como AggregateComedyRatings. Na guia Agrupar por, selecione ano na lista suspensa para agrupar as agregações pelo ano em que o filme foi lançado.

    Configurações agregadas 1

  16. Vá para a guia Agregações . Na caixa de texto à esquerda, nomeie a coluna agregada AverageComedyRating. Selecione a caixa de expressão correta para inserir a expressão agregada por meio do construtor de expressões.

    Configurações agregadas 2

  17. Para obter a média da coluna Classificação, use a avg() função agregada. Como Rating é uma string e avg() recebe uma entrada numérica, devemos converter o valor em um número através da toInteger() função. Esta expressão tem a seguinte aparência:

    avg(toInteger(Rating))

    Selecione Salvar e Concluir quando terminar.

    Classificação média de comédia

  18. Vá para a guia Visualização de dados para exibir a saída da transformação. Observe que apenas duas colunas estão lá, ano e AverageComedyRating.

    Pré-visualização de dados agregados

  19. Em seguida, você deseja adicionar uma transformação Sink em Destination.

    Adicionar um lavatório

  20. Nomeie sua pia como lavatório. Selecione Novo para criar o conjunto de dados do coletor.

  21. Escolha Azure Data Lake Storage Gen2. Selecione Continuar.

  22. Escolha DelimitedText. Selecione Continuar.

  23. Nomeie seu conjunto de dados de coletor como MoviesSink. Para o serviço vinculado, escolha o serviço vinculado ADLS Gen2 criado na etapa 7. Insira uma pasta de saída para gravar seus dados. Neste início rápido, estamos gravando na pasta 'output' no contêiner 'sample-data'. A pasta não precisa existir de antemão e pode ser criada dinamicamente. Defina Primeira linha como cabeçalho como true e selecione Nenhum para Importar esquema. Selecione OK quando terminar.

    Propriedades do conjunto de dados do coletor

Agora você terminou de criar seu fluxo de dados. Você está pronto para executá-lo em seu pipeline.

Executando e monitorando o fluxo de dados

Você pode depurar um pipeline antes de publicá-lo. Nesta etapa, você acionará uma execução de depuração do pipeline de fluxo de dados. Enquanto a visualização de dados não grava dados, uma execução de depuração grava dados no destino do coletor.

  1. Vá para a tela do pipeline. Selecione Depurar para disparar uma execução de depuração.

    Pipeline de depuração

  2. A depuração de pipeline de atividades de fluxo de dados usa o cluster de depuração ativo, mas ainda leva pelo menos um minuto para inicializar. Pode acompanhar o progresso através do separador Saída . Quando a execução for bem-sucedida, selecione o ícone de óculos para abrir o painel de monitoramento.

    Saída de depuração

  3. No painel de monitoramento, você pode ver o número de linhas e o tempo gasto em cada etapa de transformação.

    Monitorização da transformação

  4. Selecione uma transformação para obter informações detalhadas sobre as colunas e o particionamento dos dados.

    Detalhes da transformação

Se você seguiu este início rápido corretamente, você deve ter escrito 83 linhas e 2 colunas em sua pasta de coletor. Você pode verificar os dados verificando seu armazenamento de blobs.

Próximos passos

Avance para os seguintes artigos para saber mais sobre o suporte do Azure Synapse Analytics: