Поделиться через


Краткое руководство. Создание рабочей области Azure Databricks в собственной виртуальная сеть

При развертывании Azure Databricks по умолчанию создается виртуальная сеть, которой управляет Databricks. В этом кратком руководстве показано, как создать рабочую область Azure Databricks не в новой, а в существующей виртуальной сети. В этой рабочей области также создается кластер Apache Spark.

Дополнительные сведения о том, почему вам может понадобиться создать рабочую область Azure Databricks в своей виртуальной сети, см. в статье Развертывание Azure Databricks в существующей виртуальной сети Azure путем ее внедрения.

Необходимые компоненты

  • Если у вас еще нет подписки Azure, создайте бесплатную учетную запись. Это руководство не может быть выполнено с помощью бесплатной пробной подписки Azure. Если у вас есть бесплатная учетная запись, перейдите к профилю и измените подписку на подписку с оплатой по мере использования. Дополнительные сведения см. на странице создания бесплатной учетной записи Azure. Затем удалить ограничение расходов, а запросить увеличение квоты для виртуальных ЦП в вашем регионе. При создании рабочей области Azure Databricks можно выбрать ценовую категорию "Пробная версия (Премиум - бесплатные DBU на 14 дней)", чтобы предоставить рабочей области доступ к бесплатным премиальным DBU Azure Databricks в течение 14 дней.

  • Вы должны быть участником Azure или владельцем, а поставщик ресурсов Microsoft.ManagedIdentity должен быть зарегистрирован в вашей подписке. Инструкции приведены в разделе Регистрация поставщика ресурсов.

Войдите на портал Azure

Войдите на портал Azure.

Примечание.

Если вы хотите создать рабочую область Azure Databricks в коммерческом облаке Azure, которая содержит сертификаты соответствия для государственных организаций США, такие как FedRAMP High, обратитесь к группе учетных записей Майкрософт или Databricks, чтобы получить доступ к этому интерфейсу.

Создание виртуальной сети

  1. В меню портала Azure выберите Создать ресурс. Затем выберите Сетевые >виртуальной сети.

    Создание виртуальной сети на портале Azure

  2. В разделе Создание виртуальной сети укажите следующие параметры:

    Параметр Предлагаемое значение Description
    Подписка <Ваша подписка> Выберите подписку Azure, которую вы хотите использовать.
    Группа ресурсов databricks-quickstart Выберите Создать новую и введите новое имя группы ресурсов для вашей учетной записи.
    Имя. databricks-quickstart Выберите имя виртуальной сети.
    Область/регион <Выберите регион, ближайший к вашим пользователям> Выберите географическое расположение, в котором можно разместить виртуальную сеть. Используйте ближайшее к пользователям расположение.

    Основные сведения о виртуальной сети на портале Azure

  3. Выберите Далее: IP-адреса > и примените следующие параметры. Затем выберите Проверить + создать.

    Параметр Предлагаемое значение Description
    Диапазон IPv4-адресов 10.2.0.0/16 Диапазон адресов виртуальной сети в нотации CIDR. Префикс CIDR должен находиться в диапазоне от /16 до /24
    Имя подсети default Выберите имя подсети по умолчанию в виртуальной сети.
    Диапазон адресов подсети 10.2.0.0/24 Диапазон адресов подсети в нотации CIDR. Он должен содержаться в адресном пространстве виртуальной сети. Диапазон адресов используемой подсети изменить нельзя.

    Настройте конфигурации IP-адресов для виртуальной сети на портале Azure

  4. На вкладке Проверка и создание выберите Создать для развертывания виртуальной сети. После завершения развертывания перейдите к виртуальной сети и выберите адресное пространство в разделе "Параметры ". В поле с надписью Добавить дополнительный диапазон адресоввставьте 10.179.0.0/16 и нажмите Сохранить.

    Диапазон адресов виртуальной сети Azure

Создайте рабочую область Azure Databricks.

  1. В меню портала Azure выберите Создать ресурс. Затем выберите Analytics > Databricks.

    Создание рабочей области Azure Databricks на портале Azure

  2. В разделе Служба Azure Databricks укажите следующие параметры:

    Параметр Предлагаемое значение Description
    имя рабочей области. databricks-quickstart Выберите имя рабочей области Azure Databricks.
    Подписка <Ваша подписка> Выберите подписку Azure, которую вы хотите использовать.
    Группа ресурсов databricks-quickstart Выберите ту же группу ресурсов, которую вы использовали для виртуальной сети.
    Расположение <Выберите регион, ближайший к вашим пользователям> Выберите расположение, в котором находится виртуальная сеть.
    Ценовая категория Вы можете выбрать уровень "Стандартный" или "Премиум". Дополнительные сведения о ценовых категориях см. на странице Цены на Azure Databricks.

    Основные сведения о рабочей области Azure Databricks

  3. После завершения ввода параметров на странице Основы нажмите кнопку Далее: Сетевые настройки > и примените указанные ниже параметры:

    Параметр Предлагаемое значение Description
    Развертывание рабочей области Azure Databricks в подготовленной виртуальной сети Да Указанные ниже параметры позволят развернуть рабочую область Azure Databricks в существующей виртуальной сети.
    Виртуальная сеть databricks-quickstart Выберите виртуальную сеть, созданную в предыдущем разделе.
    Имя общедоступной подсети public-subnet Используйте имя общедоступной подсети по умолчанию.
    Диапазон CIDR общедоступной подсети 10.179.64.0/18 Используйте диапазон CIDR до /26 включительно.
    Имя частной подсети private-subnet Используйте имя частной подсети по умолчанию.
    Диапазон CIDR частной подсети 10.179.0.0/18 Используйте диапазон CIDR до /26 включительно.

    Добавление сведений о виртуальной сети в рабочую область Azure Databricks на портале Azure

  4. После завершения развертывания перейдите к ресурсу Azure Databricks. Обратите внимание, что пиринг виртуальной сети отключен. Также обратите внимание на группу ресурсов и управляемую группу ресурсов на странице обзора.

    Страница обзора службы Azure Databricks на портале Azure

    Управляемую группу ресурсов нельзя изменить, как и использовать для создания виртуальных машин. Виртуальные машины можно создавать только в группе ресурсов, которой управляете вы.

    Управляемая группа ресурсов Azure Databricks

    Если при развертывании рабочей области произойдет сбой, она все равно будет создана, но в состоянии сбоя. Удалите такую рабочую область и создайте новую, чтобы устранить ошибки с развертыванием. При удалении рабочей области, для которой произошел сбой, также удаляются ее управляемую группу ресурсов и все успешно развернутые ресурсы.

Создание кластера

Примечание.

Чтобы использовать бесплатную учетную запись для создания кластера Azure Databricks, перед созданием кластера перейдите в свой профиль и измените свою подписку на оплату по мере использования. Дополнительные сведения см. на странице создания бесплатной учетной записи Azure.

  1. Вернитесь в службу Azure Databricks и выберите Запустить рабочую область на странице Обзор.

  2. Выберите кластеры >и создайте кластер. Укажите имя кластера, например databricks-quickstart-cluster, и не изменяйте остальные параметры, заданные по умолчанию. Выберите Создать кластер.

    Создание кластера Azure Databricks

  3. После запуска кластера вернитесь в управляемую группу ресурсов на портале Azure. Обратите внимание на созданные виртуальные машины, диски, IP-адреса и сетевые интерфейсы. Сетевой интерфейс создается в каждой общедоступной и частной подсетях с IP-адресами.

  4. Вернитесь в рабочую область Azure Databricks и выберите созданный кластер. Затем перейдите на вкладку Executors (Исполнители) на странице Spark UI (Пользовательский интерфейс Spark). Обратите внимание, что адреса драйвера и исполнителей находятся в диапазоне частных подсетей. В этом примере драйвер имеет адрес 10.179.0.6, а исполнители — 10.179.0.4 и 10.179.0.5. У вас IP-адреса могут быть другими.

    Исполнители пользовательского интерфейса Spark в Azure Databricks

Очистка ресурсов

Когда вы выполните задачи в статье, можно будет завершить работу кластера. Для этого в рабочей области Azure Databricks в левой панели выберите Кластеры. Для завершения кластера переместите курсор на значок с многоточием в столбце Действия и выберите значок 'Завершить' . Выполнение кластера прекратится.

Если не завершить работу кластера вручную, это можно сделать автоматически, выбрав флажок Terminate after __ minutes of inactivity (Завершить работу после __ минут бездействия) во время создания кластера. В этом случае работа кластера автоматически завершается, если он был неактивным в течение определенного времени.

Если вы не собираетесь повторно использовать кластер, можно удалить группу ресурсов, созданную на портале Azure.

Следующие шаги

Из этой статьи вы узнали, как создать кластер Spark в Azure Databricks и развернуть его в виртуальной сети. В следующей статье показано, как выполнить запрос к контейнеру Docker Linux для SQL Server в виртуальной сети с помощью JDBC из записной книжки Azure.