Compartilhar via


O que é a engenharia de dados no Microsoft Fabric?

A engenharia de dados no Microsoft Fabric permite que os usuários criem, criem e mantenham infraestruturas e sistemas que permitem que suas organizações coletem, armazenem, processem e analisem grandes volumes de dados.

O Microsoft Fabric fornece vários recursos de engenharia de dados para garantir que seus dados sejam facilmente acessíveis, bem organizados e de alta qualidade. Na home page de engenharia de dados, você pode:

  • Crie e gerencie seus dados usando um lakehouse

  • Projetar pipelines para copiar dados para o lakehouse

  • Usar definições de tarefa do Spark para enviar tarefas de processamento em lote ou em fluxo contínuo para o cluster Spark

  • Usar notebooks para escrever código para ingestão, preparação e transformação de dados

    Captura de tela mostrando objetos de Engenharia de Dados.

Lakehouse

Lakehouses são arquiteturas de dados que permitem que as organizações armazenem e gerenciem dados estruturados e não estruturados em um único local, usando várias ferramentas e estruturas para processar e analisar esses dados. Essas ferramentas e estruturas podem incluir consultas e análises baseadas em SQL, bem como aprendizado de máquina e outras técnicas de análise avançada.

Definição de trabalho do Apache Spark

As definições de trabalho do Spark são um conjunto de instruções que definem como executar um trabalho em um cluster Spark. Ele inclui informações como as fontes de dados de entrada e saída, as transformações e as configurações do aplicativo Spark. A definição de trabalho do Spark permite que você envie trabalhos em lote/streaming para o cluster Spark, aplique uma lógica de transformação diferente aos dados hospedados em seu lakehouse, entre outras funcionalidades.

Notebook

Os notebooks são um ambiente de computação interativo que permite que os usuários criem e compartilhem documentos que contêm código dinâmico, equações, visualizações e texto narrativo. Eles permitem que os usuários escrevam e executem código em várias linguagens de programação, incluindo Python, R e Scala. Você pode usar notebooks para ingestão de dados, preparação, análise e outras tarefas relacionadas a dados.

Pipeline de dados

Os pipelines de dados são uma série de etapas que podem coletar, processar e transformar dados de sua forma bruta para um formato que pode ser usado para análise e tomada de decisão. Eles são um componente crítico da engenharia de dados, pois fornecem uma maneira de mover dados de sua origem para seu destino de maneira confiável, escalonável e eficiente.

Você pode usar Engenharia de Dados no Microsoft Fabric gratuitamente quando se inscrever no teste do Fabric. Você também pode comprar uma capacidade do Microsoft Fabric ou uma capacidade reservada do Fabric

Introdução à Engenharia de Dados: