O que é estruturação de dados?
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Dica
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!
Estruturação de dados refere-se ao processo de transformar e reformatar dados de sua fonte original para deixá-los mais adequados e úteis para diversas aplicações subsequentes.
As organizações precisam ter a capacidade de explorar os dados críticos para seus negócios para a preparação e a estruturação de dados, a fim de obter uma análise precisa dos dados complexos que continuam aumentando diariamente. A preparação de dados é necessária para que as organizações possam usar os dados em vários processos empresariais e reduzir o tempo de retorno.
O Data Factory possibilita que você prepare dados sem código iterativamente e em escala de nuvem usando Power Query. O Data Factory se integra ao Power Query Online e torna as funções do Power Query M disponíveis como uma atividade de pipeline.
O Data Factory converte o M gerado pelo Editor de Mashup Online do Power Query em código spark para execução em escala de nuvem, convertendo M em fluxos de dados do Azure Data Factory. Estruturar dados com o Power Query e fluxos de dados é útil principalmente para engenheiros de dados ou 'integradores de dados cidadãos'.
Casos de uso
Rápida exploração e preparação de dados interativos
Diversos engenheiros de dados e integradores de dados cidadãos podem explorar e preparar conjuntos de dados interativamente em escala de nuvem. Com o aumento de volume, variedade e velocidade de dados em data lakes, os usuários precisam de uma maneira eficaz para explorar e preparar conjuntos de dados. Por exemplo, talvez seja necessário criar um conjunto de dados que tenha todas as informações demográficas de clientes para os novos clientes desde 2017. Você não estará mapeando para um destino conhecido. Você está explorando, estruturando e preparando conjuntos de dados para atender um requisito antes de publicá-los no lake. A estruturação de dados costuma ser usada em cenários de análise menos formais. Os conjuntos de dados preparados podem ser usados para fazer transformações e operações de aprendizado de máquina downstream.
Preparação de dados agile sem código
Os integradores de dados cidadãos gastam mais de 60% do tempo procurando e preparando dados. Eles têm buscado fazer isso de uma maneira livre de códigos para assim melhorar a produtividade operacional. Permitir que os integradores de dados cidadãos enriqueçam, formem e publiquem dados usando ferramentas conhecidas como o Power Query Online de forma escalonável aumenta drasticamente a produtividade. A estruturação de dados no Azure Data Factory possibilita ao conhecido editor de mashup do Power Query Online permitir que os integradores de dados do cidadão corrijam erros rapidamente, padronizem dados e produzam dados de alta qualidade para dar suporte a decisões de negócios.
Validação e exploração de dados
Examine visualmente seus dados de forma livre de código para remover exceções, anomalias e formá-los para análise rápida.
Fontes compatíveis
Connector | Formato de dados | Tipo de autenticação |
---|---|---|
Armazenamento de Blobs do Azure | CSV, parquet, Excel | Chave de conta, Entidade de Serviço |
Azure Data Lake Storage Gen1 | CSV, parquet, Excel | Entidade de Serviço, MSI |
Azure Data Lake Storage Gen2 | CSV, parquet, Excel | Chave de conta, Entidade de Serviço |
Banco de Dados SQL do Azure | - | autenticação SQL, MSI, entidade de serviço |
Azure Synapse Analytics | - | autenticação SQL, MSI, entidade de serviço |
O editor de mashup
Quando você cria uma atividade de Power Query, todos os conjuntos de fontes de origem se tornam consultas de conjunto de dados e são colocados na pasta ADFResource. Por padrão, o UserQuery aponta a primeira consulta de conjuntos de dados. Qualquer transformação deve ser feita no UserQuery, pois alterações nas consultas de conjuntos de dados não terão suporte e nem serão persistentes. No momento, não há suporte para a renomeação, a adição ou a exclusão de consultas.
Atualmente, não há suporte a todas as funções M do Power Query para a estruturação de dados, apesar de estarem disponíveis durante a criação. Ao compilar as suas atividades de Power Query, a seguinte mensagem de erro será exibida caso não haja suporte a uma função:
The Power Query Spark Runtime does not support the function
Para mais informações sobre as transformações com suporte, consulte Funções de estruturação de dados do Power Query.
Conteúdo relacionado
Saiba como criar um mashup de estruturação de dados do Power Query.