Что такое Apache Spark™ в HDInsight на AKS? (предварительная версия)

Статья
09/20/2024

Важный

Azure HDInsight на AKS было прекращено 31 января 2025 г. Узнайте больше с этим объявлением.

Необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого завершения рабочих нагрузок.

Важный

Эта функция сейчас доступна в предварительной версии. Дополнительные условия использования для предварительных версий Microsoft Azure включают дополнительные юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в Azure HDInsight в предварительной версии AKS. Для вопросов или предложений функций отправьте запрос на AskHDInsight с подробными сведениями и следуйте за дополнительными обновлениями в Azure HDInsight Community.

Apache Spark™ — это платформа параллельной обработки, которая поддерживает обработку в памяти для повышения производительности приложений аналитики больших данных.

Apache Spark™ предоставляет примитивы для вычислений кластера в памяти. Задание Spark может загружать и кэшировать данные в память и запрашивать их многократно. Операции в памяти быстрее, чем приложения на основе дисков, такие как Hadoop, которые обмениваются данными через распределённую файловую систему HDFS. Apache Spark позволяет интегрировать с языками программирования Scala и Python, чтобы управлять распределенными наборами данных, такими как локальные коллекции. Нет необходимости всё структурировать как операции сопоставления и сокращения.

Диаграмма , показывающая обзор Spark в HDInsight на AKS.

Кластер Apache Spark с HDInsight в AKS

Azure HDInsight — это управляемая, полнотекстовая служба аналитики с открытым кодом для предприятий.

Apache Spark™ в Azure HDInsight в AKS — это управляемая служба Spark в Microsoft Azure. С помощью Apache Spark в Azure HDInsight в AKS вы можете хранить и обрабатывать данные в Azure. Кластеры Spark в HDInsight совместимы с Azure Data Lake Storage 2-го поколения, позволяют применять обработку Spark в существующих хранилищах данных.

Платформа Apache Spark для HDInsight в AKS обеспечивает быструю аналитику данных и кластерные вычисления с помощью обработки в памяти. Jupyter Notebook позволяет взаимодействовать с данными, объединять код с текстом markdown и выполнять простые визуализации.

Apache Spark в AKS в HDInsight состоит из нескольких компонентов в виде подов.

Контроллеры кластера

Контроллеры кластера отвечают за установку соответствующей службы и управление ими. Различные контроллеры устанавливаются и управляются в кластере Spark.

Компоненты службы Apache Spark

служба Zookeeper: кластер Zookeeper с тремя узлами, служит распределенным координатором или хранилищем высокого уровня доступности для других служб.

Служба Yarn: задания Spark будут запускаться в кластере Hadoop Yarn как приложения Yarn.

клиентские интерфейсы: кластеры Apache Spark в HDInsight в AKS предоставляют разнообразные возможности для клиентов. Серверы Livy, Jupyter Notebook и Spark History Server предоставляют службы Spark на HDInsight для пользователей AKS.

Ссылка

Имена проектов Apache, Apache Spark, Spark и связанных с открытым исходным кодом являются товарными знаками Apache Software Foundation (ASF).

Поделиться через

Что такое Apache Spark™ в HDInsight на AKS? (предварительная версия)

Кластер Apache Spark с HDInsight в AKS

Контроллеры кластера

Компоненты службы Apache Spark

Ссылка

Дополнительные ресурсы