¿Qué es Apache Spark™ en HDInsight en AKS? (Versión preliminar)

Artículo
09/20/2024

Importante

Azure HDInsight en AKS se retiró el 31 de enero de 2025. Obtenga más información con este anuncio.

Debe migrar las cargas de trabajo a microsoft Fabric o un producto equivalente de Azure para evitar la terminación repentina de las cargas de trabajo.

Importante

Esta característica está actualmente en versión preliminar. Los Términos de uso complementarios para las versiones preliminares de Microsoft Azure incluyen más términos legales que se aplican a las características de Azure que se encuentran en versión beta, en versión preliminar o, de lo contrario, aún no se han publicado en disponibilidad general. Para obtener información sobre esta versión preliminar específica, consulte información de la versión preliminar de Azure HDInsight en AKS. Para preguntas o sugerencias de características, envíe una solicitud en AskHDInsight con los detalles y síganos para obtener más actualizaciones sobre Comunidad de Azure HDInsight.

Apache Spark™ es un marco de procesamiento paralelo que admite el procesamiento en memoria para aumentar el rendimiento de las aplicaciones analíticas de macrodatos.

Apache Spark™ proporciona primitivos para la computación en clústeres en memoria. Un trabajo de Spark puede cargar y almacenar en caché datos en memoria y consultarlos repetidamente. La computación en memoria es más rápida que las aplicaciones basadas en disco, como Hadoop, que comparten datos a través del sistema de archivos distribuido de Hadoop (HDFS). Apache Spark permite la integración con los lenguajes de programación Scala y Python para permitirle manipular conjuntos de datos distribuidos como colecciones locales. No es necesario estructurar todo como operaciones de asignación y reducción.

Diagrama en el que se muestra información general de Spark en HDInsight en AKS.

Clúster de Apache Spark con HDInsight en AKS

Azure HDInsight es un servicio de análisis de código abierto administrado y de espectro completo para empresas.

Apache Spark™ en Azure HDInsight en AKS es el servicio de Spark administrado en Microsoft Azure. Con Apache Spark en Azure HDInsight en AKS, puede almacenar y procesar los datos en Azure. Los clústeres de Spark en HDInsight son compatibles con o azure Data Lake Storage Gen2, le permite aplicar el procesamiento de Spark en los almacenes de datos existentes.

El marco de Apache Spark para HDInsight en AKS permite el análisis rápido de datos y la computación en clústeres mediante el procesamiento en memoria. Jupyter Notebook le permite interactuar con los datos, combinar código con texto markdown y realizar visualizaciones sencillas.

Apache Spark en AKS en HDInsight está compuesto por varios componentes organizados como pods.

Controladores de clúster

Los controladores de clúster son responsables de instalar y administrar el servicio respectivo. Varios controladores se instalan y administran en un clúster de Spark.

Componentes del servicio Apache Spark

servicio Zookeeper: un clúster de Zookeeper de tres nodos, actúa como coordinador distribuido o almacenamiento de alta disponibilidad para otros servicios.

Servicio YARN: Clúster de YARN de Hadoop, los trabajos de Spark se programarán en el clúster como aplicaciones de YARN.

Interfaces de Cliente: Los clústeres de Apache Spark en HDInsight en AKS proporcionan varias interfaces de cliente. Livy Server, Jupyter Notebook, Spark History Server, proporciona servicios de Spark a HDInsight en usuarios de AKS.

Referencia

Apache, Apache Spark, Spark y los nombres de proyectos de código abierto asociados son marcas comerciales de la Fundación Apache Software (ASF).

Compartir a través de

¿Qué es Apache Spark™ en HDInsight en AKS? (Versión preliminar)

Clúster de Apache Spark con HDInsight en AKS

Controladores de clúster

Componentes del servicio Apache Spark

Referencia

Recursos adicionales