Поделиться через


Apache Spark в Azure Databricks

В этой статье описывается, как Apache Spark связан с Azure Databricks и платформой аналитики данных Databricks.

Apache Spark находится в центре платформы Azure Databricks и является технологией вычислительных кластеров и хранилищ SQL. Azure Databricks — это оптимизированная платформа для Apache Spark, обеспечивающая эффективную и простую платформу для выполнения рабочих нагрузок Apache Spark.

Что такое связь Apache Spark с Azure Databricks?

Компания Databricks была основана оригинальными создателями Apache Spark. В качестве открытый код проекта программного обеспечения Apache Spark имеет фиксации со многих ведущих компаний, включая Databricks.

Databricks продолжает разрабатывать и выпускать функции в Apache Spark. Среда выполнения Databricks включает дополнительные оптимизации и собственные функции, которые создают и расширяют Apache Spark, включая Photon, оптимизированную версию Apache Spark, перезаписываемую в C++.

Как Apache Spark работает в Azure Databricks?

При развертывании вычислительного кластера или хранилища SQL в Azure Databricks Apache Spark настраивается и развертывается на виртуальных машинах. Вам не нужно настраивать или инициализировать контекст Spark или сеанс Spark, так как они управляются azure Databricks.

Можно ли использовать Azure Databricks без использования Apache Spark?

Azure Databricks поддерживает различные рабочие нагрузки и включает открытый код библиотеки в среде выполнения Databricks. Databricks SQL использует Apache Spark под капотом, но конечные пользователи используют стандартный синтаксис SQL для создания и запроса объектов базы данных.

Среда выполнения Databricks для Машинное обучение оптимизирована для рабочих нагрузок машинного обучения, и многие специалисты по обработке и анализу данных используют основные библиотеки открытый код, такие как TensorFlow и SciKit Learn при работе с Azure Databricks. Задания можно использовать для планирования произвольных рабочих нагрузок для вычислительных ресурсов, развернутых и управляемых Azure Databricks.

Зачем использовать Apache Spark в Azure Databricks?

Платформа Databricks предоставляет безопасную, совместную среду для разработки и развертывания корпоративных решений, масштабируемых в бизнесе. Сотрудники Databricks включают многих из самых известных в мире обслуживающих и пользователей Apache Spark. Компания постоянно разрабатывает и выпускает новые оптимизации, чтобы пользователи могли получать доступ к самой быстрой среде для запуска Apache Spark.

Как узнать больше об использовании Apache Spark в Azure Databricks?

Чтобы get начала работу с Apache Spark в Azure Databricks, погрузитесь в это прямо сейчас! Руководство по Apache Spark DataFrames описывает загрузку и преобразование данных в Python, R или Scala. См . руководство. Загрузка и преобразование данных с помощью кадров данных Apache Spark.

Дополнительные сведения о поддержке языка Python, R и Scala в Spark приведены в разделе PySpark в Azure Databricks, обзоре SparkR и разделах Azure Databricks для разработчиков Scala, а также в справочнике по API Apache Spark.