O que é o Apache Spark™ no HDInsight no AKS? (Versão prévia)

Artigo
09/20/2024

Importante

O Azure HDInsight no AKS se aposentou em 31 de janeiro de 2025. Saiba mais com este comunicado.

Você precisa migrar suas cargas de trabalho para microsoft fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.

Importante

Esse recurso está atualmente em versão prévia. Os termos de uso complementares para o Microsoft Azure Previews incluem mais termos legais que se aplicam aos recursos do Azure que estão em versão beta, em versão prévia ou ainda não lançados em disponibilidade geral. Para obter informações sobre essa versão prévia específica, consulte Azure HDInsight em informações de visualização do AKS. Para dúvidas ou sugestões de funcionalidades, envie um pedido no AskHDInsight com os detalhes e siga-nos para acompanhar mais atualizações sobre a Comunidade do Azure HDInsight .

O Apache Spark™ é uma estrutura de processamento paralela que dá suporte ao processamento na memória para aumentar o desempenho de aplicativos analíticos de Big Data.

O Apache Spark™ fornece primitivos para computação em cluster na memória. Um trabalho do Spark pode carregar e armazenar dados em cache na memória e consultá-los repetidamente. A computação na memória é mais rápida do que os aplicativos baseados em disco, como o Hadoop, que compartilha dados por meio do HDFS (sistema de arquivos distribuído do Hadoop). O Apache Spark permite a integração com as linguagens de programação Scala e Python para permitir que você manipule conjuntos de dados distribuídos, como coleções locais. Não é necessário estruturar tudo como mapear e reduzir operações.

Diagrama mostrando a visão geral do Spark no HDInsight no AKS.

Cluster do Apache Spark com HDInsight no AKS

O Azure HDInsight é um serviço de análise gerenciado e de código aberto, abrangente para empresas.

O Apache Spark™ no Azure HDInsight no AKS é o serviço gerenciado do Spark no Microsoft Azure. Com o Apache Spark no Azure HDInsight no AKS, você pode armazenar e processar todos os dados no Azure. Os clusters Spark no HDInsight são compatíveis com o do Azure Data Lake Storage Gen2, o que permite que você aplique o processamento do Spark em seus armazenamentos de dados existentes.

A estrutura do Apache Spark para HDInsight no AKS permite análise de dados rápida e computação de cluster usando o processamento na memória. O Jupyter Notebook permite que você interaja com seus dados, combine código com texto de markdown e faça visualizações simples.

Apache Spark no AKS no HDInsight composto de vários componentes em forma de pods.

Controladores de cluster

Os controladores de cluster são responsáveis por instalar e gerenciar o respectivo serviço. Vários controladores são instalados e gerenciados em um cluster Spark.

Componentes de serviço do Apache Spark

Serviço Zookeeper: Um cluster Zookeeper de três nós, está servindo como coordenador distribuído ou armazenamento de alta disponibilidade para outros serviços.

serviço Yarn: cluster Yarn do Hadoop, os trabalhos do Spark seriam agendados no cluster como aplicativos Yarn.

Interfaces de Cliente: clusters do Apache Spark no HDInsight no AKS fornecem várias interfaces de cliente. Livy Server, Jupyter Notebook, Spark History Server, fornece serviços Spark para o HDInsight em usuários do AKS.

Referência

Apache, Apache Spark, Spark e nomes de projeto de software livre associados são marcas do ASF (Apache Software Foundation).

Compartilhar via

O que é o Apache Spark™ no HDInsight no AKS? (Versão prévia)

Cluster do Apache Spark com HDInsight no AKS

Controladores de cluster

Componentes de serviço do Apache Spark

Referência

Recursos adicionais