Поделиться через


Краткое руководство. Развертывание рабочей области Azure CycleCloud для Slurm с помощью Marketplace

Рабочая область Azure CycleCloud для Slurm — это бесплатное приложение Marketplace, которое предоставляет простой, безопасный и масштабируемый способ управления ресурсами вычислений и хранилища для рабочих нагрузок HPC и ИИ. В этом кратком руководстве описано, как установить CycleCloud Workspace for Slurm с помощью приложения Marketplace.

Необходимые условия

Для работы с этим кратким руководством вам потребуется:

  1. Учетная запись Azure с активной подпиской
  2. Роли участника и администратора доступа пользователей на уровне подписки

Как развернуть?

  • Войдите на портал Azure .
  • Выберите вариант + Create a Resource верхнего левого + Create a Resource
  • В поле Search services and marketplace введите Slurm, а затем выберите рабочую область Azure CycleCloud для Slurm.
  • На странице Рабочей области Azure CycleCloud для Slurm выберите Создать.

снимок экрана рабочей области Azure CycleCloud для Slurm Marketplace

Основные

  • На странице Новая рабочая область Azure CycleCloud для Slurm введите или выберите следующие сведения.
    • подписки: выберите подписку, используемую, если она еще не выбрана.
    • регионе. Выберите регион Azure, в котором требуется развернуть рабочую область CycleCloud для среды Slurm.
    • группа ресурсов. Выберите группу ресурсов для учетной записи Azure CycleCloud для учетной записи Slurm или создайте новую.
    • Размер виртуальной машины CycleCloud: выберите новый размер виртуальной машины или сохраните размер виртуальной машины по умолчанию.
    • администратора: введите имя и пароль для учетной записи администратора CycleCloud.
    • открытый ключ SSH администратора. Выберите открытый ключ SSH учетной записи администратора напрямую или, если он хранится в ресурсе ключа SSH в Azure.

снимок экрана: экран

Файловая система

Домашний каталог пользователей — создание нового

Укажите расположение домашнего каталога пользователей. Создайте новую Встроенные NFS будет использовать виртуальную машину планировщика в качестве сервера NFS с подключенным datadisk. снимок экрана подключения файловой системы для /shared и /home Builtin NFS для создания новых параметров

Создайте новую Azure NetApp Files создаст учетную запись ANF, пул и объем указанной емкости и уровня обслуживания. снимок экрана: подключение файловой системы для /shared и /home Azure NetApp files создает новые параметры

Домашний каталог пользователей — использование существующего

Если у вас есть существующая точка подключения NFS, выберите параметр Использовать существующие и укажите параметры для его подключения. снимок экрана: подключение файловой системы для /shared и /home использует внешние параметры NFS

Дополнительное подключение файловой системы — создание нового

Если необходимо подключить дополнительную файловую систему для данных проекта, можно создать новую или указать существующую. Вы можете создать новый том Azure NetApp Files или управляемую файловую систему Lustre Azure.

снимок экрана: подключение дополнительной файловой системы для создания новых Azure NetApp Files

снимок экрана: подключение дополнительной файловой системы для создания новой управляемой lustre Azure

Дополнительное подключение файловой системы — использование существующего

Если у вас есть внешняя точка подключения NFS или управляемая файловая система Lustre Azure, можно указать параметры подключения.

снимок экрана: подключение дополнительной файловой системы для существующего внешнего NFS

Сети

Укажите здесь, если вы хотите создать новую виртуальную сеть и подсети или использовать существующую.

Создание виртуальной сети

снимок экрана: параметры сети для создания новой

  • Выберите CIDR, соответствующий количеству целевых вычислительных узлов, и укажите базовый IP-адрес.
  • Рекомендуется создать бастион, если у вас нет прямого подключения, предоставляемого корпоративными ИТ-отделами,
  • Создание шлюза NAT требуется для обеспечения исходящего подключения к Интернету. Это станет обязательным в 2025 году и уже применяется политика мысли некоторых компаний,
  • Одноранговый узел к существующей виртуальной сети, если у вас уже есть концентратор, в который требуется одноранговый узел, который может доставлять службы, такие как Бастион и VPN-шлюз. Будьте внимательны, чтобы выбрать базовый IP-адрес, совместимый с одноранговой виртуальной сетью. Проверьте транзит шлюза, если одноранговая виртуальная сеть имеет шлюз.

Использование существующей виртуальной сети

Прежде чем использовать существующую виртуальную сеть, проверьте предварительные требования в Планирование рабочей области CycleCloud для развертывания Slurm

снимок экрана: параметры сети для использования существующей

Параметры Slurm

Укажите размер и образ виртуальной машины для планировщика и узлов входа. Изображения — это образы HPC, предоставляемые в Azure Marketplace с соответствующими URI:

Имя изображения УРИ
Альма Linux 8.7 almalinux:almalinux-hpc:8_7-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
Пользовательский образ Вам потребуется указать URI изображения или идентификатор изображения.

Если выбрать Custom Image необходимо указать URI образа для существующего образа Marketplace или идентификатора образа для образа в коллекции вычислений Azure.

Вы также можете проверить Use image on all nodes, если вы хотите, чтобы планировщик, узлы входа и вычислительные узлы использовали тот же образ.

Задайте количество узлов входа, которые требуется подготовить при запуске, и максимальное число. Наконец, включение проверок работоспособности будет выполнять проверки работоспособности узлов для HPC и секций GPU для автоматического удаления неработоспособных узлов при запуске.

снимок экрана параметров Slurm

Если вы хотите включить учет заданий Slurm, установите флажок, чтобы отобразить параметры подключения. Обратите внимание, что у вас должен быть ранее развернутый ресурс гибкого сервера Базы данных Azure для MySQL. Подключение через предоставление полного доменного имени или частного IP-адреса доступно, если вы решили предоставить собственную виртуальную сеть или использовать пиринг виртуальной сети при создании виртуальной сети в процессе развертывания. Кроме того, подключение через частную конечную точку доступно при выборе создания виртуальной сети.

снимок экрана: параметры параметра Slurm для базы данных учета заданий, прямая полное доменное имя

снимок экрана: параметры параметра Slurm для базы данных учета заданий с частной конечной точки

Параметры секции

Рабочая область Azure CycleCloud для Slurm поставляется с 3 определенными секциями Slurm:

  • HTC : для заданий, отличных от MPI,
  • HPC: для тесно связанных заданий MPI в основном с использованием типов виртуальных машин с поддержкой InfiniBand.
  • GPU: для заданий GPU, отличных от MPI и MPI

Вы можете задать изображение и максимальное количество узлов, которые будут динамически подготовлены CycleCloud для каждой секции. Только раздел HTC позволит использовать экземпляры Spot, так как обычно не рекомендуется использовать экземпляры Spot для заданий HPC и GPU. Однако эти параметры можно переопределить после развертывания в пользовательском интерфейсе CycleCloud.

снимок экрана: параметры параметров секции

Теги

Задайте соответствующие теги для необходимых ресурсов. Node Array теги будут применяться к виртуальным машинам, динамически подготовленным CycleCloud.

снимок экрана: параметры тегов

Просмотр и создание

Просмотрите параметры. Этот шаг также будет обрабатываться для некоторых проверок. снимок экрана проверки

При передаче нажмите кнопку "Создать ", чтобы инициализировать развертывание снимок экрана

Выполните действия и состояние развертывания.

Проверка развертывания

Подключитесь к ccw-cyclecloud-vm с помощью бастиона с ключами имени пользователя и SSH, указанными во время развертывания.

снимок экрана меню снимок экрана с параметрами подключения

При подключении проверьте журналы cloud-init, чтобы убедиться, что все правильно.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Затем установите подключение между клиентским компьютером и виртуальной машиной CycleCloud. Это может быть из корпоративного ИТ-отдела, VPN, туннелирования Бастиона, присоединенного общедоступного IP-адреса, если ваша компания разрешает ее. Подключитесь к веб-интерфейсу, перейдя к https://<cycleccloud_ip>, и выполните проверку подлинности с помощью имени пользователя и пароля, предоставленного во время развертывания. Убедитесь, что запущен планировщик и узел входа.

Подключение к узлу входа

При использовании бастиона используйте один из скриптов служебной программы util/ssh_thru_bastion.sh или util/tunnel_thru_bastion.sh для подключения, предоставленные здесь. Если вы не используете Бастион, необходимо установить прямое подключение самостоятельно.