O que é o Azure HDInsight?
Vamos analisar os recursos e usos do HDInsight. Esta visão geral ajudará você a avaliar se o HDInsight atende aos requisitos da sua organização.
What is big data? (O que são os macrodados?)
O termo big data descreve os grandes volumes de dados estruturados e não estruturados que as organizações coletam. Estes dados podem ser extremamente úteis para as organizações. Especificamente, se uma organização pode analisar os dados para obter insights, ela é mais capaz de tomar decisões. O resultado é que essas decisões podem ajudar uma organização a se tornar mais bem-sucedida. Por exemplo, a análise de big data pode permitir que uma organização comercial reconheça os hábitos dos clientes, o que pode levar ao aumento das vendas.
Definição do Azure HDInsight
O Azure HDInsight é um serviço de análise de código aberto totalmente gerenciado e baseado em nuvem para empresas. O HDInsight permite que você controle e gerencie seus big data. HDInsight:
É uma distribuição em nuvem de componentes do Hadoop.
Torna mais fácil, rápido e económico processar grandes volumes de dados.
Suporta o uso de frameworks de código aberto, tais como:
- Hadoop
- Apache Spark
- Apache Hive
- Apache Kafka
Nota
Com estas estruturas, pode permitir um vasto leque de cenários como extrair, transformar e carregar (ETL), armazenamento de dados, machine learning e IoT.
O HDInsight oferece vários benefícios para organizações que trabalham com big data. É:
Código aberto: Permite criar clusters otimizados para várias estruturas de código aberto.
Confiável: fornece um SLA completo para todas as cargas de trabalho de produção.
Escalável: Permite dimensionar cargas de trabalho para responder a alterações de demanda.
Gorjeta
Ao criar clusters sob demanda, você pode reduzir seus custos. Paga apenas o que utiliza.
Seguro: Permite que você proteja seus ativos de dados corporativos por meio da integração com:
- Rede Virtual do Azure
- Tecnologias de encriptação do Azure
- Microsoft Entra ID
Conformidade: Atende aos padrões de conformidade populares do setor e do governo.
Monitorado: integra-se aos logs do Azure Monitor para fornecer uma única interface. Monitore todos os clusters usando a interface única.
Como o HDInsight pode ajudá-lo a trabalhar com big data
Você pode usar o HDInsight para muitos cenários utilizando o processamento de big data. Os seus dados podem ser:
- Dados históricos: Estes dados já são recolhidos e armazenados.
- Dados em tempo real: esses dados são transmitidos diretamente da fonte.
As categorias a seguir resumem os cenários de processamento desses dados:
- Processamento em lotes
- Armazenamento de dados
- IoT
- Ciência dos dados
- Híbrido
Vamos examinar essas categorias mais de perto.
Processamento em lotes
As organizações usam trabalhos de processamento em lote para preparar big data para análise posterior. Normalmente, esse processo envolve três etapas:
- Leitura de arquivos de dados de origem de fontes de dados heterogêneas.
- Tratamento dos dados.
- Gravação dos dados em armazenamento escalável.
Nota
Este processo é muitas vezes referido como ETL.
Você pode usar os dados transformados para armazenamento de dados ou ciência de dados.
Gorjeta
Um requisito significativo para ETL é o scale-out de computação. Isso permite o processamento de grandes volumes de dados.
Armazenamento de dados
Um data warehouse fornece a uma organização um lugar para armazenar big data enquanto espera para analisá-lo. O armazenamento de dados permite-lhe:
- Armazene os seus dados.
- Prepare seus dados para análise.
- Fornecer os dados preparados num formato estruturado. Em seguida, você pode consultar os dados usando ferramentas analíticas.
O diagrama a seguir mostra como o Apache Hadoop no HDInsight coleta e armazena dados de várias fontes. O Apache Spark e o Apache Hive preparam e analisam os dados. Finalmente, os dados são modelados para uso com ferramentas de business intelligence (BI). O Power BI é usado para visualização de dados.
Os componentes neste cenário incluem:
- Apache Spark é uma estrutura de processamento paralelo. Ele suporta processamento na memória, o que ajuda a aumentar o desempenho de aplicativos analíticos de big data.
- O Apache Hive no HDInsight é um sistema de armazém de dados para o Apache Hadoop. O Hive permite o resumo, a consulta e a análise de dados. Você pode usar esses componentes para executar consultas em escalas de petabytes em dados estruturados e não estruturados, em qualquer formato.
Gorjeta
As consultas do Hive são escritas no HiveQL, uma linguagem de consulta semelhante ao SQL.
Internet das Coisas
Como mostra o diagrama a seguir, o HDInsight processa dados de streaming recebidos em tempo real de diferentes dispositivos e sensores. Neste exemplo, várias estruturas de código aberto fornecem processamento de fluxo, incluindo Apache Spark e Apache Kafka.
Os serviços de gateway do Azure e os hubs IoT direcionam dados de várias fontes para essas estruturas. Em seguida, as estruturas processam os dados e eles passam para:
- Armazenamento a longo prazo.
- Aplicações em tempo real.
- Painéis em tempo real.
Ciência dos dados
Você pode usar o HDInsight para concluir tarefas comuns de ciência de dados, como:
- Ingestão de dados.
- Engenharia de recursos.
- Modelagem.
- Avaliação do modelo.
O diagrama a seguir descreve um cenário de ciência de dados, no qual:
- Os dados são coletados de uma fonte de dados local usando o Azure Data Factory.
- Os dados ingeridos são então armazenados no armazenamento do Azure (Armazenamento de Blobs do Azure ou um Repositório Data Lake).
- O Azure Spark no HDInsight processa e prepara os dados para o Azure Machine Learning. Os dados também são visualizados usando o Power BI.
Híbrido
As organizações que têm uma infraestrutura de big data local podem usar o HDInsight para estender para o Azure. Isso fornece os benefícios dos recursos avançados de análise da nuvem do Azure. O diagrama a seguir mostra o cenário híbrido, no qual:
- A infraestrutura de big data local consiste em armazenamentos de metadados e uma distribuição Hadoop ou Spark em VMs locais.
- Um circuito de Rota Expressa do Azure conecta o ambiente de rede corporativa local às redes virtuais do Azure.
- Um migrador de dados em tempo real para o Azure replica os dados recebidos do local para o HDInsight.