Краткое руководство. Создание рабочей области Azure Databricks в собственной виртуальная сеть
При развертывании Azure Databricks по умолчанию создается виртуальная сеть, которой управляет Databricks. В этом кратком руководстве показано, как создать рабочую область Azure Databricks не в новой, а в существующей виртуальной сети. В этой рабочей области также создается кластер Apache Spark.
Дополнительные сведения о том, почему вам может понадобиться создать рабочую область Azure Databricks в своей виртуальной сети, см. в статье Развертывание Azure Databricks в существующей виртуальной сети Azure путем ее внедрения.
Необходимые компоненты
Если у вас еще нет подписки Azure, создайте бесплатную учетную запись. Это руководство не может быть выполнено с помощью бесплатной пробной подписки Azure. Если у вас есть бесплатная учетная запись, перейдите к профилю и измените подписку на подписку с оплатой по мере использования. Дополнительные сведения см. на странице создания бесплатной учетной записи Azure. Затем удалите предельную сумму расходов и запросите увеличение квоты для виртуальных ЦП в своем регионе. При создании рабочей области Azure Databricks можно выбрать ценовую категорию Пробная версия ("Премиум" — 14 дней бесплатно (DBU)) для предоставления рабочей области доступа к бесплатным DBU Azure Databricks уровня "Премиум" на 14 дней.
Вы должны быть участником Azure или владельцем, а поставщик ресурсов Microsoft.ManagedIdentity должен быть зарегистрирован в вашей подписке. Инструкции приведены в разделе Регистрация поставщика ресурсов.
Войдите на портал Azure
Войдите на портал Azure.
Примечание.
Если вы хотите создать рабочую область Azure Databricks в коммерческом облаке Azure, которая содержит сертификаты соответствия для государственных организаций США, такие как FedRAMP High, обратитесь к группе учетных записей Майкрософт или Databricks, чтобы получить доступ к этому интерфейсу.
Создание виртуальной сети
В меню портала Azure выберите Создать ресурс. Щелкните >.
В разделе Создание виртуальной сети укажите следующие параметры:
Параметр Предлагаемое значение Description Подписка <Ваша подписка> Выберите подписку Azure, которую нужно использовать. Группа ресурсов databricks-quickstart Выберите Создать и введите имя новой группы ресурсов для учетной записи. Имя. databricks-quickstart Укажите имя для виртуальной сети. Область/регион <Выберите ближайший к пользователям регион> Выберите географическое расположение для виртуальной сети. Используйте ближайшее к пользователям расположение. выберите Далее: IP-адреса> и задайте указанные ниже параметры. Щелкните Просмотр и создание.
Параметр Предлагаемое значение Description Диапазон IPv4-адресов 10.2.0.0/16 Диапазон адресов виртуальной сети в нотации CIDR. Префикс CIDR должен находиться в диапазоне от /16 до /24 Имя подсети default Укажите имя подсети по умолчанию для виртуальной сети. Диапазон адресов подсети 10.2.0.0/24 Диапазон адресов подсети в нотации CIDR. Он должен содержаться в адресном пространстве виртуальной сети. Диапазон адресов используемой подсети изменить нельзя. На вкладке Просмотр и создание выберите Создать, чтобы развернуть виртуальную сеть. После завершения развертывания перейдите к своей виртуальной сети и в разделе Параметры выберите Диапазон IP-адресов. В поле с текстом Добавить дополнительный диапазон адресов вставьте
10.179.0.0/16
и щелкните Сохранить.
Создайте рабочую область Azure Databricks.
В меню портала Azure выберите Создать ресурс. Затем выберите >.
В разделе Служба Azure Databricks укажите следующие параметры:
Параметр Предлагаемое значение Description имя рабочей области. databricks-quickstart Укажите имя рабочей области Azure Databricks. Подписка <Ваша подписка> Выберите подписку Azure, которую нужно использовать. Группа ресурсов databricks-quickstart Выберите группу ресурсов, которая использовалась для виртуальной сети. Расположение <Выберите ближайший к пользователям регион> Выберите расположение, в котором находится виртуальная сеть. Ценовая категория Вы можете выбрать уровень "Стандартный" или "Премиум". Дополнительные сведения о ценовых категориях см. на странице Цены на Azure Databricks. Завершив ввод параметров на странице Основные сведения, нажмите кнопку Далее: Сеть> и задайте указанные ниже параметры.
Параметр Предлагаемое значение Description Развертывание рабочей области Azure Databricks в подготовленной виртуальной сети Да Указанные ниже параметры позволят развернуть рабочую область Azure Databricks в существующей виртуальной сети. Виртуальная сеть databricks-quickstart Выберите виртуальную сеть, созданную на предыдущем этапе. Имя общедоступной подсети public-subnet Используйте имя общедоступной подсети по умолчанию. Диапазон CIDR общедоступной подсети 10.179.64.0/18 Используйте диапазон CIDR до /26 включительно. Имя частной подсети private-subnet Используйте имя частной подсети по умолчанию. Диапазон CIDR частной подсети 10.179.0.0/18 Используйте диапазон CIDR до /26 включительно. После завершения развертывания перейдите к ресурсу Azure Databricks. Обратите внимание, что пиринг виртуальной сети отключен. Также обратите внимание на группу ресурсов и управляемую группу ресурсов на странице обзора.
Управляемую группу ресурсов нельзя изменить, как и использовать для создания виртуальных машин. Виртуальные машины можно создавать только в группе ресурсов, которой управляете вы.
Если при развертывании рабочей области произойдет сбой, она все равно будет создана, но в состоянии сбоя. Удалите такую рабочую область и создайте новую, чтобы устранить ошибки с развертыванием. При удалении рабочей области, для которой произошел сбой, также удаляются ее управляемую группу ресурсов и все успешно развернутые ресурсы.
Создание кластера
Примечание.
Чтобы использовать бесплатную учетную запись для создания кластера Azure Databricks, перед созданием кластера перейдите в свой профиль и измените свою подписку на оплату по мере использования. Дополнительные сведения см. на странице создания бесплатной учетной записи Azure.
Вернитесь к службе Azure Databricks и на странице Обзор нажмите кнопку Запуск рабочей области.
Выберите Кластеры>Создать кластер. Укажите имя кластера, например databricks-quickstart-cluster, и не изменяйте остальные параметры, заданные по умолчанию. Выберите Создать кластер.
После запуска кластера вернитесь в управляемую группу ресурсов на портале Azure. Обратите внимание на созданные виртуальные машины, диски, IP-адреса и сетевые интерфейсы. Сетевой интерфейс создается в каждой общедоступной и частной подсетях с IP-адресами.
Вернитесь в рабочую область Azure Databricks и выберите созданный кластер. Затем перейдите на вкладку Executors (Исполнители) на странице Spark UI (Пользовательский интерфейс Spark). Обратите внимание, что адреса драйвера и исполнителей находятся в диапазоне частных подсетей. В этом примере драйвер имеет адрес 10.179.0.6, а исполнители — 10.179.0.4 и 10.179.0.5. У вас IP-адреса могут быть другими.
Очистка ресурсов
Когда вы выполните задачи в статье, можно будет завершить работу кластера. Для этого в рабочей области Azure Databricks на левой панели выберите Кластеры. Для кластера, работу которого необходимо завершить, переместите указатель мыши на многоточие в столбце Actions (Действия) и выберите значок Завершить. Выполнение кластера прекратится.
Если не завершить работу кластера вручную, это можно сделать автоматически, выбрав флажок Terminate after __ minutes of inactivity (Завершить работу после __ минут бездействия) во время создания кластера. В этом случае работа кластера автоматически завершается, если он был неактивным в течение определенного времени.
Если вы не собираетесь повторно использовать кластер, можно удалить группу ресурсов, созданную на портале Azure.
Следующие шаги
Из этой статьи вы узнали, как создать кластер Spark в Azure Databricks и развернуть его в виртуальной сети. В следующей статье показано, как выполнить запрос к контейнеру Docker Linux для SQL Server в виртуальной сети с помощью JDBC из записной книжки Azure.