Critérios de decisão para selecionar a opção de configuração correta do HDInsight

Concluído

Há diferentes configurações do serviço HDInsight que podem ser usadas para diferentes cenários analíticos. Na verdade, o HDInsight contém tantas tecnologias de análise OSS que pode ser considerado um balcão único para atender às suas necessidades analíticas avançadas. Todos os vários tipos de cluster disponíveis podem atender às necessidades dos cenários de negócios descritos abaixo. Com cada tipo de cluster, você tem controle total sobre como gerenciar cada um desses cenários no HDInsight. 

Muitas empresas têm requisitos semelhantes quando se trata dos cenários de processamento e análise de dados para obter valor comercial. Esses requisitos podem incluir:

Processamento em lote

O HDInsight pode ser usado para extrair, transformar e carregar (ETL) ou extrair, carregar e transformar operações (ELT) em dados estruturados e não estruturados usando Hadoop ou Spark e as estruturas de processamento de dados, incluindo Hive e Sqoop.  

Armazenamento de dados

Tradicionalmente feito por bancos de dados relacionais locais, como o SQL Server, e mais recentemente com o SQL Data Warehouse do Azure sobre dados estruturados em escala de petabytes. O HDInsight permite consultas interativas em escala de petabytes sobre dados estruturados ou não estruturados em vários formatos. Esse recurso pode funcionar bem se você gerenciar suas operações de dados e requisitos de relatórios usando o HDInsight Hadoop com Hive. 

Streaming de dados

Os dados de streaming podem ser ingeridos de várias fontes usando o HDInsight por meio de um Hub de Eventos ou Hub IoT usando o Spark Streaming.  

Híbrido

Algumas organizações já têm infraestruturas de big data locais. Você pode estender a capacidade para a nuvem usando o HDInsight.

O principal ponto de decisão para selecionar a opção correta de configuração do cluster HDInsight baseia-se na carga de trabalho que o cluster HDInsight irá atender. Se sua organização trabalhar com várias cargas de trabalho, não é incomum alternar para diferentes configurações do HDInsight para corresponder à carga de trabalho que precisa de processamento.

Tipo de carga de trabalho Tipo de Cluster
Movimentação em lote de dados Apache Hadoop
Ciência de Dados – Batch e Streaming Apache Spark
Cargas de trabalho transacionais HBase
Análise ad hoc/Armazenamento de dados Consulta interativa Apache
Análise de streaming Apache Kafka

Importante

Os clusters HDInsight estão disponíveis em vários tipos, cada um para uma única carga de trabalho ou tecnologia. Não há nenhum método suportado para criar um cluster que combine vários tipos, como Hadoop e HBase em um cluster. Se sua solução exigir tecnologias espalhadas por vários tipos de cluster HDInsight, uma rede virtual do Azure poderá conectar os diferentes tipos de cluster necessários.