Что такое Apache Spark™ в HDInsight на AKS? (предварительная версия)
Важный
Azure HDInsight на AKS было прекращено 31 января 2025 г. Узнайте больше с этим объявлением.
Необходимо перенести рабочие нагрузки в Microsoft Fabric или эквивалентный продукт Azure, чтобы избежать резкого завершения рабочих нагрузок.
Важный
Эта функция сейчас доступна в предварительной версии. Дополнительные условия использования для предварительных версий Microsoft Azure включают дополнительные юридические термины, применимые к функциям Azure, которые находятся в бета-версии, в предварительной версии или в противном случае еще не выпущены в общую доступность. Сведения об этой конкретной предварительной версии см. в Azure HDInsight в предварительной версии AKS. Для вопросов или предложений функций отправьте запрос на AskHDInsight с подробными сведениями и следуйте за дополнительными обновлениями в Azure HDInsight Community.
Apache Spark™ — это платформа параллельной обработки, которая поддерживает обработку в памяти для повышения производительности приложений аналитики больших данных.
Apache Spark™ предоставляет примитивы для вычислений кластера в памяти. Задание Spark может загружать и кэшировать данные в память и запрашивать их многократно. Операции в памяти быстрее, чем приложения на основе дисков, такие как Hadoop, которые обмениваются данными через распределённую файловую систему HDFS. Apache Spark позволяет интегрировать с языками программирования Scala и Python, чтобы управлять распределенными наборами данных, такими как локальные коллекции. Нет необходимости всё структурировать как операции сопоставления и сокращения.
Диаграмма
Кластер Apache Spark с HDInsight в AKS
Azure HDInsight — это управляемая, полнотекстовая служба аналитики с открытым кодом для предприятий.
Apache Spark™ в Azure HDInsight в AKS — это управляемая служба Spark в Microsoft Azure. С помощью Apache Spark в Azure HDInsight в AKS вы можете хранить и обрабатывать данные в Azure. Кластеры Spark в HDInsight совместимы с Azure Data Lake Storage 2-го поколения, позволяют применять обработку Spark в существующих хранилищах данных.
Платформа Apache Spark для HDInsight в AKS обеспечивает быструю аналитику данных и кластерные вычисления с помощью обработки в памяти. Jupyter Notebook позволяет взаимодействовать с данными, объединять код с текстом markdown и выполнять простые визуализации.
Apache Spark в AKS в HDInsight состоит из нескольких компонентов в виде подов.
Контроллеры кластера
Контроллеры кластера отвечают за установку соответствующей службы и управление ими. Различные контроллеры устанавливаются и управляются в кластере Spark.
Компоненты службы Apache Spark
служба Zookeeper: кластер Zookeeper с тремя узлами, служит распределенным координатором или хранилищем высокого уровня доступности для других служб.
Служба Yarn: задания Spark будут запускаться в кластере Hadoop Yarn как приложения Yarn.
клиентские интерфейсы: кластеры Apache Spark в HDInsight в AKS предоставляют разнообразные возможности для клиентов. Серверы Livy, Jupyter Notebook и Spark History Server предоставляют службы Spark на HDInsight для пользователей AKS.
Ссылка
- Имена проектов Apache, Apache Spark, Spark и связанных с открытым исходным кодом являются товарными знакамиApache Software Foundation (ASF).