Поделиться через


Создание общего пула виртуальных машин для обработки и анализа данных

Эта статья описывает, как создать для общий пул из виртуальных машин для обработки и анализа данных (DSVM) для команды. Использование общего пула обеспечивает важные преимущества:

  • Улучшение использования ресурсов
  • Упрощение общего доступа и совместной работы
  • Более эффективное управление ресурсами DSVM

Для создания пула DSVM можно использовать множество методик и технологий. В этой статье основное внимание уделяется пулам для интерактивных виртуальных машин (VM). Альтернативная управляемая инфраструктура вычислений включает Машинное обучение Azure вычислений. Дополнительные сведения см. в статье "Создание вычислительного кластера".

Пул интерактивных виртуальных машин

Пул интерактивной виртуальной машины, совместно используемый всей командой ИИ или обработки и анализа данных, предлагает пользователям возможность входа в доступный экземпляр DSVM, а не выделенный экземпляр для каждого набора пользователей. Такой подход обеспечивает более высокую доступность и более эффективное использование ресурсов.

Используйте технологию масштабируемых наборов виртуальных машин Azure для создания интерактивного пула виртуальных машин. Используйте масштабируемые наборы для создания и управления группой идентичных, балансировки нагрузки и автомасштабирования виртуальных машин.

Пользователь входит в IP-адрес или DNS-адрес основного пула. Масштабируемый набор автоматически перенаправляет сеанс доступной DSVM. Так как пользователи хотят согласованной и знакомой среды независимо от виртуальной машины, в которой они войдет, все экземпляры виртуальной машины в масштабируемом наборе подключают общий сетевой диск. Это похоже на общий ресурс Файлы Azure или сетевую файловую систему (NFS). Общая рабочая область пользователя обычно хранится в общем хранилище файлов, подключенном к каждому экземпляру.

Пример шаблона Azure Resource Manager, который создает масштабируемый набор с экземплярами DSVM на основе Ubuntu, можно найти на сайте GitHub. В том же расположении размещен пример файла параметров для шаблона Azure Resource Manager.

Укажите значения файла параметров в Azure CLI, чтобы создать масштабируемый набор из шаблона Azure Resource Manager:

az group create --name [[NAME OF RESOURCE GROUP]] --location [[ Data center. For eg: "West US 2"]
az deployment group create --resource-group  [[NAME OF RESOURCE GROUP ABOVE]]  --template-uri https://raw.githubusercontent.com/Azure/DataScienceVM/master/Scripts/CreateDSVM/Ubuntu/dsvm-vmss-cluster.json --parameters @[[PARAMETER JSON FILE]]

Предполагается, что у вас есть следующие команды:

  • Копия файла параметров со значениями, указанными для экземпляра масштабируемого набора.
  • Количество экземпляров виртуальных машин
  • Указатель на общую папку Файлы Azure
  • Учетные данные для учетной записи хранения, которая будет подключена на каждой виртуальной машине

Команды локально ссылались на файл параметров. Вы также можете передавать встроенные параметры или запрашивать их в скрипте.

Приведенный выше шаблон позволяет использовать протокол SSH и порт JupyterHub из интерфейсного масштабируемого набора во внутреннем пуле DSVM на основе Ubuntu. В качестве пользователя вы войдете на виртуальную машину в Secure Shell (SSH) или в JupyterHub обычным образом. Так как экземпляры виртуальных машин могут масштабироваться динамически, любое состояние должно быть сохранено в подключенной общей папке хранилища файлов Azure. Тот же подход можно использовать для создания пула DSVM на основе Windows.

В репозитории Azure DataScienceVM на сайте GitHub можно также найти сценарий, который подключает общий ресурс службы файлов Azure. Этот сценарий подключает общий ресурс службы файлов Azure в заданной точке подключения внутри файла параметров. Кроме того, он создает гибкие связи с подключенным диском в домашнем каталоге начального пользователя. Каталог записной книжки для конкретного пользователя в Файлы Azure общей папке связан $HOME/notebooks/remote с каталогом, чтобы пользователи могли получать доступ к записным книжкам Jupyter, запускать и сохранять их записные книжки Jupyter. Вы можете использовать то же соглашение при создании дополнительных пользователей на виртуальной машине, чтобы указать рабочей области Jupyter каждого пользователя на Файлы Azure общий ресурс.

Масштабируемые наборы виртуальных машин поддерживают автомасштабирование. Вы можете задать правила о том, когда создавать дополнительные экземпляры и когда масштабировать экземпляры. Например, можно уменьшить до нуля экземпляров, чтобы сэкономить на затратах на использование облачного оборудования, если виртуальные машины не используются вообще. На страницах документации по масштабируемым наборам виртуальных машин приведены подробные инструкции по автомасштабированию.

Следующие шаги