Os critérios de decisão para selecionar a opção de configuração do HDInsight correta
Há diferentes configurações do serviço HDInsight que podem ser usadas para cenários analíticos diferentes. Na verdade, o HDInsight contém tantas tecnologias de análise de software de código aberto pode ser considerado um centro para atender às suas necessidades analíticas avançadas. Todos os vários tipos de cluster disponíveis podem atender às necessidades dos cenários de negócios descritos abaixo. Com cada tipo de cluster, você tem controle total sobre como gerenciar cada um desses cenários no HDInsight.
Muitas empresas têm requisitos semelhantes quando se trata dos cenários para processar e analisar dados para derivar valor empresarial. Estes requisitos podem incluir:
Processamento em lote
O HDInsight pode ser usado para operações de ETL (extração, transformação e carregamento) ou ELT (extração, carregamento e transformação) em dados estruturados e não estruturados usando o Hadoop ou o Spark e as estruturas de processamento de dados, incluindo Hive e Sqoop.
Armazenamento de dados
Tradicionalmente feito por bancos de dados relacionais locais, como o SQL Server, e mais recentemente com o SQL Data Warehouse do Azure em dados estruturados em escala de petabytes. O HDInsight permite que consultas interativas em petabytes sejam escaladas de dados estruturados ou não estruturados em muitos formatos. Essa funcionalidade poderá funcionar bem se você gerenciar suas operações de dados e os requisitos de relatórios usando o HDInsight Hadoop com o Hive.
Dados de streaming
Os dados de streaming podem ser ingeridos de uma variedade de fontes usando o HDInsight por meio de um Hub de Eventos ou um Hub IoT usando o Spark Streaming.
Híbrido
Algumas organizações já têm infraestruturas de Big Data locais. Você pode estender a capacidade para a nuvem usando o HDInsight.
O ponto de decisão principal para selecionar a opção de configuração de cluster do HDInsight correta é baseado na carga de trabalho que o cluster do HDInsight vai atender. Caso sua organização trabalhe com várias cargas de trabalho, não é incomum mudar para diferentes configurações do HDInsight para corresponder à carga de trabalho que precisa de processamento.
Tipo de carga de trabalho | Tipo de cluster |
---|---|
Movimentação de dados em lote | Apache Hadoop |
Ciência de dados – lote e streaming | Apache Spark |
Cargas de trabalho transacionais | HBase |
Análise/data warehousing ad hoc | Consulta Interativa do Apache |
Análise de streaming | Apache Kafka |
Importante
Clusters HDInsight estão disponíveis em vários tipos, cada um para uma carga de trabalho ou tecnologia distinta. Não há nenhum método com suporte para criar um cluster que combina vários tipos, como o Hadoop e HBase em um cluster. Se a sua solução exige tecnologias que sejam distribuídas entre vários tipos de cluster do HDInsight, uma rede virtual do Azure poderá conectar os tipos de cluster necessários.