Escolher uma tecnologia de processamento em lote no Azure

Artigo
08/01/2024

As soluções de Big Data geralmente consistem em tarefas discretas de processamento em lote que contribuem para a solução geral de processamento de dados. Você pode usar o processamento em lote para cargas de trabalho que não exigem acesso imediato a insights. O processamento em lote pode complementar os requisitos de processamento em tempo real. Você também pode usar o processamento em lote para equilibrar a complexidade e reduzir o custo da implementação geral.

O requisito fundamental dos mecanismos de processamento em lote é dimensionar cálculos para lidar com um grande volume de dados. Ao contrário do processamento em tempo real, o processamento em lote tem latências, ou o tempo entre a ingestão de dados e a computação de um resultado, de minutos ou horas.

Escolha uma tecnologia para processamento em lote

A Microsoft oferece vários serviços que você pode usar para fazer processamento em lote.

Microsoft Fabric

O Microsoft Fabric é uma plataforma de dados e análise tudo-em-um para organizações. É uma oferta de software como serviço que simplifica a forma como provisiona, gerencia e governa uma solução de análise de ponta a ponta. O Fabric lida com movimentação, processamento, ingestão, transformação e emissão de relatórios de dados. Os recursos de malha que você usa para processamento em lote incluem engenharia de dados, data warehouses, lakehouses e processamento Apache Spark. O Azure Data Factory no Fabric também oferece suporte a lakehouses. Para simplificar e acelerar o desenvolvimento, você pode habilitar o Copilot orientado por IA.

Linguagens: R, Python, Java, Scala e SQL
Segurança: Rede virtual gerenciada e controle de acesso baseado em função (RBAC) do OneLake
Armazenamento principal: OneLake, que tem atalhos e opções de espelhamento
Faísca: Uma piscina inicial pré-hidratada e uma piscina Spark personalizada com tamanhos de nós predefinidos

Azure Synapse Analytics

O Azure Synapse Analytics é um serviço de análise empresarial que reúne as tecnologias SQL e Spark em uma única construção de um espaço de trabalho. O Azure Synapse Analytics simplifica a segurança, a governança e o gerenciamento. Cada espaço de trabalho tem pipelines de dados integrados que você pode usar para criar fluxos de trabalho de ponta a ponta. Você também pode provisionar um pool SQL dedicado para análises em grande escala, um ponto de extremidade SQL sem servidor que você pode usar para consultar diretamente o lago e um tempo de execução do Spark para processamento de dados distribuídos.

Linguagens: Python, Java, Scala e SQL
Segurança: rede virtual gerenciada, RBAC e controle de acesso e listas de controle de acesso de armazenamento no Armazenamento do Azure Data Lake
Armazenamento principal: armazenamento Data Lake e também se integra com outras fontes
Spark: configuração personalizada do Spark com tamanhos de nó predefinidos

Azure Databricks

O Azure Databricks é uma plataforma de análise baseada no Spark. Ele possui recursos ricos e premium do Spark que são construídos em cima do Spark de código aberto. O Azure Databricks é um serviço da Microsoft que se integra com o resto dos serviços do Azure. Ele possui configurações extras para implantações de cluster do Spark. E o Unity Catalog ajuda a simplificar a governança dos objetos do Azure Databricks Spark.

Linguagens: R, Python, Java, Scala e Spark SQL.
Segurança: Autenticação do usuário com o Microsoft Entra ID.
Armazenamento principal: integração interna com o Armazenamento de Blobs do Azure, o Armazenamento Data Lake, o Azure Synapse Analytics e outros serviços. Para obter mais informações, consulte Fontes de dados.

Outros benefícios incluem:

Blocos de notas baseados na Web para colaboração e exploração de dados.
Tempos de início de cluster rápidos, terminação automática e dimensionamento automático.
Suporte para clusters habilitados para GPU.

Principais critérios de seleção

Para escolher sua tecnologia para processamento em lote, considere as seguintes perguntas:

Você quer um serviço gerenciado ou deseja gerenciar seus próprios servidores?
Deseja criar lógica de processamento em lote declarativa ou imperativamente?
Você executa processamento em lote em rajadas? Se sim, considere opções que forneçam a capacidade de encerrar automaticamente um cluster ou que tenham modelos de preços para cada trabalho em lote.
Você precisa consultar armazenamentos de dados relacionais junto com seu processamento em lote, por exemplo, para procurar dados de referência? Se sim, considere as opções que fornecem a capacidade de consultar repositórios relacionais externos.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos entre serviços.

Capacidades gerais

Funcionalidade	Recursos de infraestrutura	Azure Synapse Analytics	Azure Databricks
Software como serviço	Sim¹	No	Não
Serviço gerido	Não	Sim	Sim
Armazenamento de dados relacional	Sim	Sim	Sim
Modelo de preços	Unidades de capacidade	Pool SQL ou hora do cluster	Unidade 2^{do Azure Databricks e}hora do cluster

[1] Capacidade de malha atribuída.

[2] Uma unidade do Azure Databricks é a capacidade de processamento por hora.

Outras capacidades

Funcionalidade	Recursos de infraestrutura	Azure Synapse Analytics	Azure Databricks
Dimensionamento automático	No	No	Sim
Granularidade de expansão	Por malha SKU	Por cluster ou por pool SQL	Por cluster
Cache de dados na memória	Não	Sim	Sim
Consulta de repositórios relacionais externos	Sim	No	Sim
Autenticação	Microsoft Entra ID	SQL ou Microsoft Entra ID	Microsoft Entra ID
Auditoria	Sim	Sim	Sim
Segurança ao nível da linha	Sim	^{Sim 1}	Sim
Suporta firewalls	Sim	Sim	Sim
Máscara de dados dinâmica	Sim	Sim	Sim

[1] Apenas predicados de filtro. Para obter mais informações, consulte Segurança em nível de linha.

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Principais autores:

Zoiner Tejada - Brasil | CEO e Arquiteto
Pratima Valavala - Brasil | Arquiteto de Soluções Principal

Para ver perfis não públicos do LinkedIn, inicie sessão no LinkedIn.

Partilhar via

Escolher uma tecnologia de processamento em lote no Azure

Escolha uma tecnologia para processamento em lote

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Principais critérios de seleção

Matriz de capacidades

Capacidades gerais

Outras capacidades

Contribuidores

Próximos passos

Comentários

Recursos adicionais

Partilhar via

Escolher uma tecnologia de processamento em lote no Azure

Escolha uma tecnologia para processamento em lote

Microsoft Fabric

Azure Synapse Analytics

Azure Databricks

Principais critérios de seleção

Matriz de capacidades

Capacidades gerais

Outras capacidades

Contribuidores

Próximos passos

Recursos relacionados

Comentários

Recursos adicionais