O que é o Apache Spark™ no HDInsight no AKS? (Pré-visualização)

Artigo
09/20/2024

Importante

O Azure HDInsight no AKS foi desativado em 31 de janeiro de 2025. Saiba mais com este anúncio.

Você precisa migrar suas cargas de trabalho para Microsoft Fabric ou um produto equivalente do Azure para evitar o encerramento abrupto de suas cargas de trabalho.

Importante

Esta funcionalidade está atualmente em pré-visualização. Os Termos de Utilização Suplementares para versões de pré-visualização do Microsoft Azure incluem mais termos legais que se aplicam a funcionalidades do Azure que estão em versão beta, em pré-visualização ou ainda não disponibilizadas à disponibilidade geral. Para obter informações sobre esta visualização específica, consulte as informações de visualização do Azure HDInsight no AKS . Para perguntas ou sugestões de funcionalidades, envie uma solicitação no AskHDInsight com os detalhes e segue-nos para obter mais atualizações da Comunidade do Azure HDInsight em .

O Apache Spark™ é uma estrutura de processamento paralelo que suporta processamento na memória para aumentar o desempenho de aplicativos analíticos de big data.

O Apache Spark™ fornece primitivos para computação em cluster na memória. Um trabalho do Spark pode carregar e armazenar dados em cache na memória e consultá-los repetidamente. A computação na memória é mais rápida do que os aplicativos baseados em disco, como o Hadoop, que compartilha dados por meio do sistema de arquivos distribuído Hadoop (HDFS). O Apache Spark permite a integração com as linguagens de programação Scala e Python para permitir que você manipule conjuntos de dados distribuídos, como coleções locais. Não há necessidade de estruturar tudo como mapa e reduzir operações.

Diagrama mostrando a visão geral do Spark no HDInsight no AKS.

Cluster do Apache Spark no HDInsight em AKS

O Azure HDInsight é um serviço de análise gerenciado, de espectro completo e de código aberto para empresas.

O Apache Spark™ no Azure HDInsight no AKS é o serviço Spark gerido no Microsoft Azure. Com o Apache Spark no Azure HDInsight no AKS, você pode armazenar e processar seus dados no Azure. Os clusters do Spark no HDInsight são compatíveis com o Azure Data Lake Storage Gen2, permitindo que se aplique o processamento do Spark nos seus armazenamentos de dados existentes.

A estrutura Apache Spark para HDInsight no AKS permite análise rápida de dados e computação em cluster usando processamento na memória. O Jupyter Notebook permite que você interaja com seus dados, combine código com texto de marcação e faça visualizações simples.

Apache Spark no AKS e no HDInsight, composto por vários componentes como pods.

Controladores de cluster

Os controladores de cluster são responsáveis pela instalação e gestão do respetivo serviço. Vários controladores são instalados e gerenciados em um cluster Spark.

Componentes de serviço do Apache Spark

Serviço Zookeeper: Um cluster Zookeeper de três nós, serve como coordenador distribuído ou armazenamento de Alta Disponibilidade para outros serviços.

serviço Yarn: cluster Hadoop Yarn, os trabalhos do Spark seriam agendados no cluster como aplicativos Yarn.

Clusters Apache Spark no HDInsight no AKS : fornecem várias interfaces de cliente. Livy Server, Jupyter Notebook e Spark History Server fornecem serviços Spark para utilizadores do HDInsight em AKS.

Referência

Apache, Apache Spark, Spark e nomes de projetos de código aberto associados são marcas comerciais da Apache Software Foundation (ASF).

Partilhar via

O que é o Apache Spark™ no HDInsight no AKS? (Pré-visualização)

Cluster do Apache Spark no HDInsight em AKS

Controladores de cluster

Componentes de serviço do Apache Spark

Referência

Recursos adicionais