Guia de decisão do Microsoft Fabric: atividade de cópia, fluxo de dados ou Spark
Use este guia de referência e os cenários de exemplo para ajudá-lo a decidir se precisa de uma atividade de cópia, um fluxo de dados ou o Spark para suas cargas de trabalho do Microsoft Fabric.
Copiar atividade, fluxo de dados e propriedades do Spark
Atividade de cópia de pipeline | Fluxo de dados Gen 2 | Spark | |
---|---|---|---|
Cenário de teste | Migração de data lake e data warehouse, ingestão de dados, transformação leve |
Ingestão de dados, transformação de dados, disputa de dados, definição de perfis de dados |
Ingestão de dados, transformação de dados, tratamento de dados, definição de perfis de dados |
Persona principal do desenvolvedor | Engenheiro de dados, integrador de dados |
Engenheiro de dados, integrador de dados, Analista de Negócios |
Engenheiro de dados, cientista de dados, Desenvolvedor de dados |
Conjunto de habilidades principais do desenvolvedor | ETL, SQL, JSON |
ETL, M, SQL |
Spark (Scala, Python, Spark SQL, R) |
Código escrito | Sem código, código baixo |
Sem código, código baixo |
Código |
Volume de dados | Baixa para alta | Baixa para alta | Baixa para alta |
Interface de desenvolvimento | Assistente, Lona |
Power query | Caderno, Definição de trabalho do Spark |
Fontes | 30+ conectores | 150+ conectores | Centenas de bibliotecas Spark |
Destinos | 18+ conectores | Casa do lago, Banco de dados SQL do Azure, Azure Data explorer, Azure Synapse analytics |
Centenas de bibliotecas Spark |
Complexidade da transformação | Baixo: leve - conversão de tipo, mapeamento de colunas, mesclagem/divisão de arquivos, hierarquia nivelada |
De baixo para alto: + de 300 funções de transformação |
De baixo para alto: suporte para Spark nativo e bibliotecas de código aberto |
Analise os três cenários a seguir para obter ajuda na escolha de como trabalhar com seus dados no Fabric.
Cenário 1
Leo, um engenheiro de dados, precisa ingerir um grande volume de dados de sistemas externos, tanto no local quanto na nuvem. Esses sistemas externos incluem bancos de dados, sistemas de arquivos e APIs. Leo não quer escrever e manter código para cada conector ou operação de movimentação de dados. Ele quer seguir as melhores práticas das camadas de medalhão, com bronze, prata e ouro. Leo não tem nenhuma experiência com o Spark, então ele prefere a interface do usuário de arrastar e soltar tanto quanto possível, com codificação mínima. E ele também quer processar os dados em um cronograma.
A primeira etapa é obter os dados brutos para a camada bronze a partir de recursos de dados do Azure e várias fontes de terceiros (como Snowflake Web, REST, AWS S3, GCS, etc.). Ele quer um lakehouse consolidado, para que todos os dados de várias fontes de LOB, locais e de nuvem residam em um único lugar. Leo analisa as opções e seleciona a atividade de cópia de pipeline como a escolha apropriada para sua cópia binária bruta. Esse padrão se aplica à atualização de dados históricos e incrementais. Com a atividade de cópia, o Leo pode carregar dados Gold em um data warehouse sem código, se necessário, e os pipelines fornecem ingestão de dados em alta escala que podem mover dados em escala de petabytes. A atividade de cópia é a melhor opção low-code e no-code para mover petabytes de dados para lakehouses e armazéns a partir de variedades de fontes, seja ad hoc ou por meio de um cronograma.
Cenário 2
Mary é engenheira de dados com um profundo conhecimento dos vários requisitos de relatórios analíticos LOB. Uma equipe upstream implementou com sucesso uma solução para migrar vários dados históricos e incrementais do LOB para uma casa de lago comum. Mary foi encarregada de limpar os dados, aplicar lógicas de negócios e carregá-los em vários destinos (como Azure SQL DB, ADX e uma lakehouse) em preparação para suas respetivas equipes de relatórios.
Mary é uma usuária experiente do Power Query e o volume de dados está na faixa baixa a média para alcançar o desempenho desejado. Os fluxos de dados fornecem interfaces no-code ou low-code para a ingestão de dados de centenas de fontes de dados. Com fluxos de dados, você pode transformar dados usando 300+ opções de transformação de dados e gravar os resultados em vários destinos com uma interface de usuário fácil de usar e altamente visual. Mary analisa as opções e decide que faz sentido usar o Dataflow Gen 2 como sua opção de transformação preferida.
Cenário3
Adam é um engenheiro de dados que trabalha para uma grande empresa de varejo que usa um lakehouse para armazenar e analisar os dados de seus clientes. Como parte de seu trabalho, Adam é responsável por construir e manter os pipelines de dados que extraem, transformam e carregam dados na casa do lago. Um dos requisitos de negócios da empresa é realizar análises de avaliação de clientes para obter insights sobre as experiências de seus clientes e melhorar seus serviços.
Adam decide que a melhor opção é usar o Spark para construir a lógica de extração e transformação. O Spark fornece uma plataforma de computação distribuída que pode processar grandes quantidades de dados em paralelo. Ele escreve um aplicativo Spark usando Python ou Scala, que lê dados estruturados, semi-estruturados e não estruturados do OneLake para avaliações e feedback dos clientes. O aplicativo limpa, transforma e grava dados em tabelas Delta na casa do lago. Os dados estão então prontos para serem usados para análises a jusante.