O que é a engenharia de dados no Microsoft Fabric?
A engenharia de dados no Microsoft Fabric permite que os usuários projetem, criem e mantenham infraestruturas e sistemas que possibilitem que suas organizações coletem, armazenem, processem e analisem grandes volumes de dados.
O Microsoft Fabric fornece vários recursos de engenharia de dados para garantir que seus dados sejam facilmente acessíveis, bem organizados e de alta qualidade. Na home page de engenharia de dados, você pode:
Criar e gerenciar seus dados usando um lakehouse
Projetar pipelines para copiar dados para o lakehouse
Usar definições de trabalho do Spark para enviar trabalhos de lote/streaming para o cluster do Spark
Usar notebooks para gravar código para ingestão, preparação e transformação de dados
Lakehouse
Lakehouses são arquiteturas de dados que permitem que as organizações armazenem e gerenciem dados estruturados e não estruturados em um único local, usando várias ferramentas e estruturas para processar e analisar esses dados. Essas ferramentas e estruturas podem incluir consultas e análises baseadas em SQL, bem como aprendizado de máquina e outras técnicas avançadas de análise.
Definição de trabalho do Apache Spark
As definições de trabalho do Spark são um conjunto de instruções que definem como executar um trabalho em um cluster do Spark. Elas incluem informações como as fontes de dados de entrada e saída, as transformações e as configurações do aplicativo Spark. A definição de trabalho do Spark permite que você envie trabalhos de lote/streaming para o cluster do Spark, aplique uma lógica de transformação diferente aos dados hospedados em seu Lakehouse, juntamente com muitas outras coisas.
Notebook
O Notebooks é um ambiente de computação interativo que permite que criar e compartilhar documentos que contêm código ao vivo, equações, visualizações e texto narrativo. Ele permite que os usuários gravem e executem código em várias linguagens de programação, incluindo Python, R e Scala. Você pode usar notebooks para ingestão de dados, preparação, análise e outras tarefas relacionadas a dados.
Pipeline de dados
Os pipelines de dados são uma série de etapas que podem coletar, processar e transformar dados de sua forma bruta para um formato que pode ser usado para análise e tomada de decisão. Eles são um componente crítico da engenharia de dados, pois fornecem uma maneira de mover dados de sua origem para seu destino de maneira confiável, escalonável e eficiente.
Você pode usar a Engenharia de Dados no Microsoft Fabric gratuitamente ao se inscrever par a avaliação do Fabric. Você também pode comprar uma capacidade do Microsoft Fabric ou uma capacidade reservada do Fabric
Conteúdo relacionado
Introdução à engenharia de dados:
- Para saber mais sobre lakehouses, confira O que é um lakehouse no Microsoft Fabric?
- Para começar a usar um lakehouse, confira Criar um lakehouse no Microsoft Fabric.
- Para saber mais sobre as definições de trabalho do Apache Spark, consulte O que é uma definição de trabalho do Apache Spark?
- Para começar a usar uma definição de trabalho do Apache Spark, consulte Como criar uma definição de trabalho do Apache Spark no Fabric.
- Para saber mais sobre Notebooks, consulte Criar e executar o notebook.
- Para começar a usar a atividade de cópia de pipelines, consulte Como copiar dados usando a atividade de cópia.