O que é o HDInsight?
Os enormes volumes, variedade e velocidade com que os dados são gerados hoje trouxeram a necessidade de usar sistemas que possam trabalhar de forma eficaz e eficiente com os dados semi e não estruturados gerados. Foram feitas tentativas pelos sistemas tradicionais de gerenciamento de banco de dados relacional (RDBMS) para processar, armazenar e analisar "big data". Mas, foi o mundo do Software de Código Aberto (OSS) que fez a rutura. O OSS usa hardware de mercadoria de forma distribuída, combinado com software para dimensionar dados e análises além dos limites impostos a servidores únicos.
O OSS está disponível gratuitamente para uso de organizações e indivíduos. A falta de governança e apoio ao OSS no passado dificultou a adoção por algumas empresas. Com o advento da nuvem, muitos provedores de nuvem hospedam esses serviços e fornecem suporte gerenciado para organizações que fazem uso de tecnologias OSS. Essa proposta é atraente para as organizações colherem os benefícios do OSS sem incorrer no custo de gerenciá-lo e apoiá-lo. É comum ver OSS no espaço do big data. Neste espaço existem muitas tecnologias não só para processar e armazenar dados, mas também para realizar análises. A análise OSS permite uma estratégia de aplicativo aberta e multinuvem que não está vinculada a um único fornecedor de nuvem. Ele fornece portabilidade se você precisa mover soluções do local para a nuvem ou entre diferentes fornecedores de nuvem.
Uma das principais tecnologias analíticas de OSS usadas em soluções de big data é o Hadoop. Ele normalmente armazena dados em um Hadoop Distributed File System (HDFS) e usa um cluster de computadores commodity, com um modelo de programação chamado MapReduce. Este modelo de programação permite o processamento distribuído de grandes conjuntos de dados em um fluxo de dados linear. Para melhorar o desempenho, o Apache Spark se baseia nos recursos de arquitetura do Hadoop, mas substitui o paradigma MapReduce pelo RDD (Resilient Distributed Dataset). O RDD fornece um mecanismo de dados na memória que é muito mais rápido.
Vale a pena notar que a análise OSS foi além da aplicação tradicional de soluções de big data com Hadoop e Spark. A análise OSS agora incorpora uma ampla gama de software, incluindo o seguinte:
- Kafka e Flink para cenários de streaming
- Presto e Kylin como camadas de abstração SQL
- Camadas de IA adicionadas com H20.ai e Dataiku
O Azure HDInsight é um serviço de análise gerido, de espetro completo e open-source na cloud para empresas. Na Microsoft, a análise OSS é implementada no Azure HDInsight. Você pode usar estruturas de código aberto como Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka. Você também obtém os benefícios da segurança de nível empresarial, recursos de monitoramento e opções de alta disponibilidade que seriam esperados de um serviço hospedado no Azure. O Azure HDInsight também é extensível e personalizável para lidar com uma variedade de cenários de clientes.