Краткое руководство: развертывание управляемого кластера Apache Spark с Azure Databricks

Статья
08/15/2024

Служба "Управляемый экземпляр Azure для Apache Cassandra" позволяет автоматизировать операции развертывания и масштабирования для управляемых решений Apache Cassandra с открытым кодом для центров обработки данных. Эта функция ускоряет гибридные сценарии и сокращает текущее обслуживание.

В этом кратком руководстве показано, как с помощью портала Azure создать полностью управляемый кластер Apache Spark в виртуальной сети Azure вашего Управляемого экземпляра Azure для кластера Apache Cassandra. Вы создаете кластер Spark в Azure Databricks. Позже вы можете создавать или присоединять записные книжки к кластеру, считывать данные из разных источников данных и анализировать аналитические сведения.

См. подробные инструкции по развертыванию Azure Databricks в виртуальной сети Azure (внедрение в виртуальную сеть).

Необходимые компоненты

Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Создание кластера Azure Databricks.

Выполните следующие действия, чтобы создать кластер Azure Databricks в виртуальной сети с Управляемым экземпляром Azure для Apache Cassandra:

Войдите на портал Azure.
На панели навигации слева найдите группы ресурсов. Перейдите в группу ресурсов, содержащую виртуальная сеть, в которой развернут управляемый экземпляр.
Откройте ресурс виртуальной сети и запишите диапазон адресов:
В группе ресурсов выберите Добавить и введите в поле поиска Azure Databricks:
Выберите Создать, чтобы создать учетную запись Azure Databricks:
Введите следующие значения:
- Имя рабочей области Укажите имя рабочей области Databricks.
- Регион обязательно выберите тот же регион, что и виртуальная сеть.
- Ценовая категория "Стандартный", "Премиум" или "Пробная версия". Дополнительные сведения об этих ценовых категориях см. на странице цен на Databricks.
Затем выберите вкладку "Сеть" и введите следующие сведения:
- Разверните рабочую область Azure Databricks в виртуальная сеть (виртуальная сеть) нажмите кнопку "Да".
- виртуальная сеть В раскрывающемся списке выберите виртуальная сеть, где существует управляемый экземпляр.
- Имя общедоступной подсети введите имя общедоступной подсети.
- Диапазон CIDR общедоступной подсети введите диапазон IP-адресов для общедоступной подсети.
- Имя частной подсети введите имя частной подсети.
- Диапазон CIDR частной подсети введите диапазон IP-адресов для частной подсети.
Чтобы избежать конфликтов диапазонов, убедитесь, что выбраны более высокие диапазоны. При необходимости используйте визуальный калькулятор подсетей, чтобы разделить диапазоны:

На следующем снимке экрана показан пример сведений на панели "Сеть".
Выберите Просмотр и создание, а затем — Создать, чтобы развернуть рабочую область.
После ее создания выберите Запуск рабочей области.
Вы будете перенаправлены на портал Azure Databricks. На портале выберите Создать кластер.
На панели Новый кластер примите значения по умолчанию для всех полей, кроме следующих:
- Имя кластера введите имя кластера.
- Версия среды выполнения Databricks рекомендуется выбрать среду выполнения Databricks версии 7.5 или более поздней для поддержки Spark 3.x.
Разверните пункт Дополнительные параметры и добавьте следующую конфигурацию. Обязательно замените IP-адреса и учетные данные узла:
```
spark.cassandra.connection.host <node1 IP>,<node 2 IP>, <node IP>
spark.cassandra.auth.password cassandra
spark.cassandra.connection.port 9042
spark.cassandra.auth.username cassandra
spark.cassandra.connection.ssl.enabled true
```
Добавьте библиотеку соединителей Apache Spark Cassandra в кластер для подключения к собственным конечным точкам, а также к конечным точкам Cassandra в Azure Cosmos DB. В кластере выберите Библиотеки>Установить>Maven, а затем добавьте com.datastax.spark:spark-cassandra-connector-assembly_2.12:3.0.0 в координаты Maven.

Очистка ресурсов

Если вы не планируете в дальнейшем использовать кластер с управляемым экземпляром, удалите его, выполнив следующие действия:

В меню слева на портале Azure выберите Группы ресурсов.
Выберите из списка группу ресурсов, созданную для этого краткого руководства.
В области Обзор на странице группы ресурсов выберите Удалить группу ресурсов.
В следующем окне введите имя группы ресурсов, которую требуется удалить, и щелкните Удалить.

Следующие шаги

Из этого краткого руководства вы узнали, как создать полностью управляемый кластер Apache Spark в виртуальной сети вашего Управляемого экземпляра Azure для кластера Apache Cassandra. Далее вы сможете узнать, как управлять ресурсами кластера и центра обработки данных:

Управление ресурсами службы "Управляемый экземпляр Azure для ресурсов Apache Cassandra" с помощью Azure CLI

Поделиться через

Краткое руководство: развертывание управляемого кластера Apache Spark с Azure Databricks

Необходимые компоненты

Создание кластера Azure Databricks.

Очистка ресурсов

Следующие шаги

Обратная связь

Дополнительные ресурсы