Partilhar via


Escolha uma tecnologia de armazenamento de big data no Azure

Este artigo compara opções de armazenamento de dados para soluções de big data — especificamente, armazenamento de dados para ingestão de dados em massa e processamento em lote, em oposição a armazenamentos de dados analíticos ou ingestão de streaming em tempo real.

Quais são suas opções ao escolher o armazenamento de dados no Azure?

Há várias opções para ingerir dados no Azure, dependendo das suas necessidades.

Data lake lógico unificado:

Armazenamento de ficheiros:

Bases de dados NoSQL:

Bases de dados analíticas:

OneLake em tecido

O OneLake in Fabric é um data lake unificado e lógico adaptado para toda a organização. Ele serve como o hub central para todos os dados de análise e está incluído em todos os locatários do Microsoft Fabric. O OneLake in Fabric foi construído com base no Data Lake Storage Gen2.

OneLake em Tecido:

  • Suporta tipos de arquivos estruturados e não estruturados.
  • Armazena todos os dados tabulares no formato Delta Parquet.
  • Fornece um único data lake dentro dos limites do locatário que é governado por padrão.
  • Suporta a criação de espaços de trabalho dentro de um locatário para que uma organização possa distribuir políticas de propriedade e acesso.
  • Suporta a criação de vários itens de dados, como lakehouses e armazéns, a partir dos quais você pode acessar dados.

O OneLake in Fabric serve como o local de armazenamento comum para ingestão, transformação, insights em tempo real e visualizações de business intelligence. Ele centraliza vários serviços do Fabric e armazena itens de dados que todas as cargas de trabalho usam no Fabric. Para escolher o armazenamento de dados certo para suas cargas de trabalho do Fabric, consulte Guia de decisão do Fabric: escolha um armazenamento de dados.

Blobs de Armazenamento do Azure

O Armazenamento do Azure é um serviço de armazenamento gerenciado que é altamente disponível, seguro, durável, escalável e redundante. A Microsoft trata da manutenção e lida com os problemas críticos por si. O Armazenamento do Azure é a solução de armazenamento mais ubíqua que o Azure fornece, devido ao número de serviços e ferramentas que podem ser usados com ele.

Há vários serviços de Armazenamento do Azure que você pode usar para armazenar dados. A opção mais flexível para armazenar blobs de muitas fontes de dados é o armazenamento de Blobs. Blobs são basicamente arquivos. Eles armazenam imagens, documentos, arquivos HTML, discos rígidos virtuais (VHDs), big data, como logs, backups de bancos de dados — praticamente qualquer coisa. Os blobs são armazenados em contentores, que são semelhantes a pastas. Um contêiner fornece um agrupamento de um conjunto de blobs. Uma conta de armazenamento pode conter um número ilimitado de contentores, e um contentor pode armazenar um número ilimitado de blobs.

O Armazenamento do Azure é uma boa opção para soluções de big data e análise, devido à sua flexibilidade, alta disponibilidade e baixo custo. Ele fornece níveis de armazenamento quentes, frescos e arquivados para diferentes casos de uso. Para obter mais informações, consulte Armazenamento de Blob do Azure: camadas de armazenamento quentes, frias e de arquivamento.

O armazenamento de Blob do Azure pode ser acessado do Hadoop (disponível por meio do HDInsight). O HDInsight pode utilizar um contentor de blobs no Armazenamento do Azure como o sistema de ficheiros predefinido para o cluster. Por meio de uma interface HDFS (Hadoop Distributed File System) fornecida por um driver WASB, o conjunto completo de componentes do HDInsight pode operar diretamente em dados estruturados ou não estruturados armazenados como blobs. O armazenamento de Blob do Azure também pode ser acessado por meio do Azure Synapse Analytics usando seu recurso PolyBase.

Outros recursos que tornam o Armazenamento do Azure uma boa escolha são:

Armazenamento do Data Lake Ger2

O Data Lake Storage Gen2 é um repositório único e centralizado onde você pode armazenar todos os seus dados, estruturados e não estruturados. Um data lake permite que sua organização armazene, acesse e analise de forma rápida e mais fácil uma ampla variedade de dados em um único local. Com um data lake, você não precisa estar em conformidade com seus dados para se adequar a uma estrutura existente. Em vez disso, você pode armazenar seus dados em seu formato bruto ou nativo, geralmente como arquivos ou como objetos binários grandes (blobs).

O Data Lake Storage Gen2 converge os recursos do Azure Data Lake Storage Gen1 com o Azure Blob Storage. Por exemplo, o Data Lake Storage Gen2 fornece semântica do sistema de arquivos, segurança no nível de arquivo e escala. Como esses recursos são criados no armazenamento de Blob, você também obtém armazenamento hierárquico de baixo custo, com recursos de alta disponibilidade/recuperação de desastres.

O Data Lake Storage Gen2 torna o Armazenamento do Azure a base para a criação de data lakes corporativos no Azure. Projetado desde o início para atender a vários petabytes de informações enquanto sustenta centenas de gigabits de taxa de transferência, o Data Lake Storage Gen2 permite que você gerencie facilmente grandes quantidades de dados.

Azure Cosmos DB

O Azure Cosmos DB é o banco de dados multimodelo distribuído globalmente da Microsoft. O Azure Cosmos DB garante latências de um dígito e milissegundos no percentil 99 em qualquer lugar do mundo, fornece vários modelos de consistência bem definidos para ajustar o desempenho e garante alta disponibilidade com recursos de vários homing.

O Azure Cosmos DB é independente do esquema. Ele indexa automaticamente todos os dados sem exigir que você lide com o gerenciamento de esquema e índice. Também é multimodelo, suportando nativamente modelos de dados de documentos, chave-valor, gráficos e famílias de colunas.

Recursos do Azure Cosmos DB:

HBase no HDInsight

O Apache HBase é um banco de dados NoSQL de código aberto que é construído no Hadoop e modelado de acordo com o Google BigTable. O HBase fornece acesso aleatório e forte consistência para grandes quantidades de dados não estruturados e semiestruturados em um banco de dados sem esquema organizado por famílias de colunas.

Os dados são armazenados nas linhas de uma tabela e os dados de uma linha são agrupados por família de colunas. O HBase não tem esquema no sentido de que nem as colunas nem o tipo de dados armazenados nelas precisam ser definidos antes de usá-las. O código open source é dimensionado linearmente para processar petabytes de dados em milhares de nós. Pode depender da redundância de dados, do processamento em lotes e de outras funcionalidades fornecidas por aplicações distribuídas do ecossistema do Hadoop.

A implementação do HDInsight usa a arquitetura de expansão do HBase para fornecer fragmentação automática de tabelas, forte consistência para leituras e gravações e failover automático. O desempenho é melhorado graças à colocação em cache dentro da memória para as operações de leitura e à transmissão em fluxo de alto débito para as operações de escrita. Na maioria dos casos, você deseja criar o cluster HBase dentro de uma rede virtual para que outros clusters e aplicativos HDInsight possam acessar diretamente as tabelas.

Azure Data Explorer

O Azure Data Explorer é um serviço de exploração de dados rápido e altamente escalável para dados de log e telemetria. Ele ajuda você a lidar com os muitos fluxos de dados emitidos pelo software moderno para que você possa coletar, armazenar e analisar dados. O Azure Data Explorer é ideal para analisar grandes volumes de dados diversificados provenientes de qualquer origem de dados, como sites, aplicações, dispositivos IoT e muito mais. Estes dados são utilizados para diagnóstico, monitorização, relatórios, aprendizagem automática e capacidades de análise adicionais. O Azure Data Explorer simplifica a ingestão desses dados e permite que você faça consultas complexas não planejadas nos dados em segundos.

O Azure Data Explorer pode ser expandido linearmente para aumentar a taxa de transferência de ingestão e processamento de consultas. Um cluster do Azure Data Explorer pode ser implantado em uma Rede Virtual para habilitar redes privadas.

Principais critérios de seleção

Para restringir as escolhas, comece por responder a estas perguntas:

  • Você precisa de um data lake unificado com suporte multicloud, governança robusta e integração perfeita com ferramentas analíticas? Se sim, escolha OneLake in Fabric para gerenciamento de dados simplificado e colaboração aprimorada.

  • Você precisa de armazenamento gerenciado, de alta velocidade e baseado em nuvem para qualquer tipo de texto ou dados binários? Se sim, escolha uma das opções de armazenamento de arquivos ou análise.

  • Você precisa de armazenamento de arquivos otimizado para cargas de trabalho de análise paralela e alta taxa de transferência/IOPS? Se sim, escolha uma opção ajustada ao desempenho da carga de trabalho de análise.

  • Você precisa armazenar dados não estruturados ou semiestruturados em um banco de dados sem esquema? Em caso afirmativo, selecione uma das opções não relacionais ou analíticas. Compare opções para indexação e modelos de banco de dados. Dependendo do tipo de dados que você precisa armazenar, os modelos de banco de dados primários podem ser o maior fator.

  • Você pode usar o serviço na sua região? Verifique a disponibilidade regional para cada serviço do Azure. Para obter mais informações, veja Produtos disponíveis por região.

Matriz de capacidades

As tabelas a seguir resumem as principais diferenças nos recursos.

Recursos do OneLake in Fabric

Funcionalidade OneLake em tecido
Data lake unificado Fornece um único data lake unificado para toda a organização, o que elimina silos de dados.
Suporte multicloud Suporta integração e compatibilidade com várias plataformas de nuvem.
Governação de dados Inclui recursos como linhagem de dados, proteção de dados, certificação e integração de catálogo.
Hub de dados centralizado Atua como um hub centralizado para descoberta e gerenciamento de dados.
Suporte analítico do motor Compatível com múltiplos motores analíticos. Essa compatibilidade permite que diversas ferramentas e tecnologias operem com os mesmos dados.
Segurança e conformidade Garante que os dados confidenciais permaneçam seguros e que o acesso seja restrito apenas a usuários autorizados.
Facilidade de utilização Fornece um design amigável que está automaticamente disponível com todos os locatários do Fabric e não requer configuração.
Escalabilidade Capaz de lidar com grandes volumes de dados de várias fontes.

Recursos de armazenamento de arquivos

Funcionalidade Armazenamento do Data Lake Ger2 Contêineres de Armazenamento de Blob do Azure
Propósito Armazenamento otimizado para cargas de trabalho de análise de big data Armazenamento de objetos de uso geral para uma ampla variedade de cenários de armazenamento
Casos de utilização Batch, análise de streaming e dados de aprendizado de máquina, como arquivos de log, dados de IoT, fluxos de cliques, grandes conjuntos de dados Qualquer tipo de texto ou dados binários, como back-end de aplicativos, dados de backup, armazenamento de mídia para streaming e dados de uso geral
Estrutura Sistema de arquivos hierárquico Armazenamento de objetos com namespace simples
Autenticação Baseado em identidades Microsoft Entra Com base em segredos partilhados Chaves de Acesso à Conta e Chaves de Assinatura de Acesso Partilhado e controlo de acesso baseado na função do Azure (Azure RBAC)
Protocolo de autenticação Autorização aberta (OAuth) 2.0. As chamadas devem conter um JWT (token da Web JSON) válido emitido pelo Microsoft Entra ID Hash-based Message Authentication Code (HMAC). As chamadas têm de conter um hash SHA-256 codificado com Base64 numa parte do pedido HTTP.
Autorização Listas de controle de acesso (ACLs) POSIX (Portable Operating System Interface). As ACLs baseadas em identidades do Microsoft Entra podem ser definidas no nível de arquivo e pasta. Para autorização no nível da conta, use as chaves de acesso da conta. Para autorização de conta, contêiner ou blob, use Chaves de Assinatura de Acesso Compartilhado.
Auditoria Disponível. Disponível
Encriptação inativa Transparente, do lado do servidor Transparente, do lado do servidor; Criptografia do lado do cliente
SDKs de desenvolvedor .NET, Java, Python Node.js .NET, Java, Python, Node.js, C++, Ruby
Desempenho da carga de trabalho do Analytics Desempenho otimizado para cargas de trabalho de análise paralela, alta taxa de transferência e IOPS Não otimizado para cargas de trabalho de análise
Limites de tamanho Sem limites de tamanho de conta, tamanho de arquivo ou número de arquivos Limites específicos documentados aqui
Georredundância Localmente redundante (armazenamento localmente redundante (LRS)), globalmente redundante (armazenamento com redundância geográfica (GRS)), acesso de leitura globalmente redundante (armazenamento com redundância geográfica de acesso de leitura (RA-GRS)), redundante de zona (armazenamento com redundância de zona (ZRS)). Localmente redundante (LRS), globalmente redundante (GRS), acesso de leitura globalmente redundante (RA-GRS), zona redundante (ZRS). Consulte Redundância de armazenamento do Azure para obter mais informações

Recursos de banco de dados NoSQL

Funcionalidade Azure Cosmos DB HBase no HDInsight
Modelo de banco de dados primário Armazenamento de documentos, gráfico, armazenamento de chave-valor, armazenamento de colunas amplas Armazenamento de coluna ampla
Índices secundários Sim No
Suporte à linguagem SQL Sim Sim (usando o driver JDBC Phoenix )
Consistência Forte, delimitado, sessão, prefixo consistente, eventual Forte
Integração nativa do Azure Functions Sim No
Distribuição global automática Sim Nenhumareplicação de cluster HBase pode ser configurada entre regiões com consistência eventual
Modelo de preços Unidades de solicitação elasticamente escaláveis (RUs) carregadas por segundo, conforme necessário, armazenamento elasticamente escalável Preços por minuto para cluster HDInsight (dimensionamento horizontal de nós), armazenamento

Recursos de banco de dados analítico

Funcionalidade Azure Data Explorer
Modelo de banco de dados primário Relational (armazenamento de coluna), telemetria e armazenamento de séries temporais
Suporte à linguagem SQL Sim
Modelo de preços Instâncias de cluster elasticamente escaláveis
Autenticação Baseado em identidades Microsoft Entra
Encriptação inativa Chaves suportadas e gerenciadas pelo cliente
Desempenho da carga de trabalho do Analytics Desempenho otimizado para cargas de trabalho de análise paralela
Limites de tamanho Quase escalável

Contribuidores

Este artigo é mantido pela Microsoft. Foi originalmente escrito pelos seguintes contribuidores.

Autor principal:

Próximos passos