Opções de configuração do HDInsight
O HDInsight tem uma ampla gama de tecnologias OSS incorporadas que podem ser usadas para lidar com cenários de streaming e dados em lote, que são termos definidos em arquiteturas Lambda. Neste modelo de arquitetura, há um caminho quente de dados e um caminho frio de dados. O caminho quente dos dados é gerado em tempo real por dispositivos, sensores ou aplicativos e a análise de dados é realizada quase em tempo real, isso é muitas vezes referido como streaming de dados. Um caminho de dados frio é quando os dados são movidos em lotes, normalmente de outros armazenamentos de dados e geralmente são chamados de dados em lote.
Ao implementar o HDInsight, o armazenamento de dados é mantido em um HDFS (Hadoop Distributed File System) compatível. No Azure, o Data Lake Gen2 normalmente é usado como um armazenamento de dados, pois é compatível com HDFS. Os dados do caminho quente e do caminho frio após o processamento são armazenados em um armazenamento de dados centralizado chamado Data Lake. O Data lake em si pode ser compartimentado para armazenar dados em diferentes compartimentos, que podem ser definidos pelo estado dos dados (zona de pouso, zona de transformação, etc.), requisitos de acesso (quente, quente e frio) e grupos de negócios. A camada de serviço é o compartimento final no data lake que contém dados em um formato pronto para consumo por vários tipos de consumidores.
Essencialmente, o aspeto de computação do HDInsight lida com o processamento de streaming ou dados em lote e pode variar dependendo do tipo de cluster selecionado ao provisionar um cluster HDInsight. O HDInsight oferece os serviços em opções de cluster individuais, conforme mostrado na tabela a seguir.
Tipo de Cluster | Descrição |
---|---|
Apache Hadoop | Uma estrutura que usa HDFS e um modelo de programação MapReduce simples para processar e analisar dados em lote. |
Apache Spark | Uma estrutura de processamento paralelo de código aberto que suporta processamento na memória para aumentar o desempenho de aplicativos de análise de big data. |
HBase | Um banco de dados NoSQL construído no Hadoop que fornece acesso aleatório e forte consistência para grandes quantidades de dados não estruturados e semiestruturados - potencialmente bilhões de linhas vezes milhões de colunas. |
Consulta interativa Apache | Cache na memória para consultas interativas e mais rápidas do Hive. |
Apache Kafka | Uma plataforma de código aberto que é usada para criar pipelines de dados e aplicativos de streaming. O Kafka também fornece uma funcionalidade de fila de mensagens que lhe permite publicar e subscrever transmissões de dados. |
Portanto, é importante selecionar o tipo de cluster correto para atender ao business case que você está tentando resolver. Independentemente do tipo de cluster selecionado, componentes de código aberto adicionais também são adicionados dentro do cluster para fornecer recursos adicionais, incluindo:
Gerenciamento de Hadoop
HCatalog - Uma camada de gerenciamento de tabela e armazenamento para Hadoop
Apache Ambari - Facilita o gerenciamento e o monitoramento de um cluster Apache Hadoop
Apache Oozie - Um sistema de agendador de fluxo de trabalho para gerenciar trabalhos do Apache Hadoop
Apache Hadoop YARN – Gerencia o gerenciamento de recursos e o agendamento/monitoramento de tarefas
Apache ZooKeeper - Um serviço centralizado para manter informações de configuração, nomear, fornecer sincronização distribuída e fornecer serviços de grupo.
Tratamento de dados
Apache Hadoop MapReduce - Uma estrutura para escrever facilmente aplicativos, que processam grandes quantidades de dados
Apache Tez - Uma estrutura de aplicação para processamento de dados
Apache Hive - Facilita o gerenciamento de grandes conjuntos de dados que residem em armazenamento distribuído usando SQL
Análise de dados
Apache Pig – Fornece uma camada de abstração sobre MapReduce para analisar grandes conjuntos de dados
Apache Phoenix - Permite OLTP e análise operacional no Hadoop
Apache Mahout – Uma estrutura de álgebra para criar seus próprios algoritmos
Nota
No momento da redação deste artigo, o Azure Data Lake Gen1 e o Armazenamento de Blobs do Azure são camadas de armazenamento de dados com suporte para o HDInsight. Você deve procurar migrar esses dados para o Azure Data Lake Gen2, pois é a plataforma de armazenamento recomendada para Spark e Hadoop, além de ser a opção padrão para o HBase.