Exercício: usar estruturação de dados do Azure Data Factory
O recurso Power Query dentro do Azure Data Factory permite que você trabalhe e altere dados. É um objeto que pode ser adicionado ao designer de tela como uma atividade em um pipeline do Azure Data Factory para realizar a preparação de dados sem código. Ele permite que os indivíduos que não dominam as tecnologias de preparação de dados tradicionais, como Spark ou SQL Server, e linguagens como Python e T-SQL, prepararem dados em escala de nuvem iterativamente.
O recurso do Power Query usa uma interface do tipo grade para a preparação de dados básicos que é semelhante à estética do Excel, conhecida como Editor de mashup online. O editor também permite que usuários mais avançados realizem uma preparação de dados mais complexa usando fórmulas. Você primeiro precisa criar um serviço vinculado a uma fonte de dados antes de poder acessar os dados
As fórmulas funcionam com o Power Query Online e disponibilizam as funções do Power Query M para usuários do data factory. O Power Query então traduz a linguagem M gerada pelo Online Mashup Editor em código de faísca para execução em escala de nuvem.
Esse recurso permite que engenheiros e analistas de dados explorem e preparem conjuntos de dados interativamente. Além disso, eles podem trabalhar interativamente com a linguagem M e visualizar o resultado antes de vê-lo no contexto de um pipeline mais amplo.
Para adicionar uma atividade do Power Query no Azure Data Factory, clique no ícone de adição e selecione Power Query no painel de recursos de fábrica.
Adicione um conjunto de dados de origem ao fluxo de dados de estruturação e selecione um conjunto de dados do coletor. Há suporte para as fontes de dados a seguir.
Connector | Formato de dados | Tipo de autenticação |
---|---|---|
Armazenamento do Blobs do Azure | CSV, Parquet | Chave de conta |
Azure Data Lake Storage Gen1 | CSV | Entidade de Serviço |
Azure Data Lake Storage Gen2 | CSV, Parquet | Chave de conta, entidade de serviço |
Banco de Dados SQL do Azure | Autenticação SQL | |
Azure Synapse Analytics | Autenticação SQL |
Depois de selecionar uma origem, clique em criar.
Isso abre o Editor de Mashup Online.
Isso consiste nos seguintes componentes:
Lista de conjunto de dados.
Isso fornecerá os conjuntos de dados definidos como a origem para a estruturação de dados.
Barra de ferramentas da Função de estruturação.
A barra de ferramentas contém uma variedade de funções de estruturação de dados que o usuário pode acessar para processar os dados, incluindo:
- Gerenciar colunas.
- Transformar tabelas.
- Reduzir linhas.
- Adicionar colunas.
- Combinar tabelas.
Cada item é sensível ao contexto e contém subfunções específicas.
Títulos de coluna.
Além de ter a capacidade de renomear colunas, clicar com o botão direito do mouse na coluna abrirá itens sensíveis ao contexto para o gerenciamento de colunas.
Configurações.
Isso permite que você adicione ou edite fontes de dados e coletores de dados e modifique a configuração da tarefa de dados de estruturação.
Janela de etapas.
Esta janela mostra as etapas aplicadas à saída de estruturação. No exemplo no gráfico, a etapa chamada "Origem" foi aplicada à saída de estruturação chamada "UserQuery".
Lista de saída do Power Query.
Lista a saída de estruturação de dados que foi definida.
Botão Publicar.
Permite que você publique o trabalho criado.
Uma tarefa do Power Query pode ser adicionada ao designer do exame assim como uma tarefa de atividade de cópia ou uma tarefa de fluxo de dados de mapeamento e pode ser gerenciada e monitorada da mesma maneira.