Краткое руководство. Развертывание рабочей области Azure CycleCloud для Slurm с помощью Marketplace
Рабочая область Azure CycleCloud для Slurm — это бесплатное приложение Marketplace, которое предоставляет простой, безопасный и масштабируемый способ управления ресурсами вычислений и хранилища для рабочих нагрузок HPC и ИИ. В этом кратком руководстве описано, как установить CycleCloud Workspace for Slurm с помощью приложения Marketplace.
Необходимые условия
Для работы с этим кратким руководством вам потребуется:
- Учетная запись Azure с активной подпиской
- Роли участника и администратора доступа пользователей на уровне подписки
Как развернуть?
- Войдите на портал Azure .
- Выберите вариант
+ Create a Resource
верхнего левого+ Create a Resource
- В поле
Search services and marketplace
введите Slurm, а затем выберите рабочую область Azure CycleCloud для Slurm. - На странице Рабочей области Azure CycleCloud для Slurm выберите Создать.
рабочей области Azure CycleCloud для Slurm Marketplace
Основные
- На странице Новая рабочая область Azure CycleCloud для Slurm введите или выберите следующие сведения.
- подписки: выберите подписку, используемую, если она еще не выбрана.
- регионе. Выберите регион Azure, в котором требуется развернуть рабочую область CycleCloud для среды Slurm.
- группа ресурсов. Выберите группу ресурсов для учетной записи Azure CycleCloud для учетной записи Slurm или создайте новую.
- Размер виртуальной машины CycleCloud: выберите новый размер виртуальной машины или сохраните размер виртуальной машины по умолчанию.
- администратора: введите имя и пароль для учетной записи администратора CycleCloud.
- открытый ключ SSH администратора. Выберите открытый ключ SSH учетной записи администратора напрямую или, если он хранится в ресурсе ключа SSH в Azure.
Файловая система
Домашний каталог пользователей — создание нового
Укажите расположение домашнего каталога пользователей. Создайте новую Встроенные NFS будет использовать виртуальную машину планировщика в качестве сервера NFS с подключенным datadisk.
Создайте новую Azure NetApp Files создаст учетную запись ANF, пул и объем указанной емкости и уровня обслуживания.
Домашний каталог пользователей — использование существующего
Если у вас есть существующая точка подключения NFS, выберите параметр Использовать существующие и укажите параметры для его подключения.
Дополнительное подключение файловой системы — создание нового
Если необходимо подключить дополнительную файловую систему для данных проекта, можно создать новую или указать существующую. Вы можете создать новый том Azure NetApp Files или управляемую файловую систему Lustre Azure.
Azure NetApp Files
Дополнительное подключение файловой системы — использование существующего
Если у вас есть внешняя точка подключения NFS или управляемая файловая система Lustre Azure, можно указать параметры подключения.
NFS
Сети
Укажите здесь, если вы хотите создать новую виртуальную сеть и подсети или использовать существующую.
Создание виртуальной сети
- Выберите CIDR, соответствующий количеству целевых вычислительных узлов, и укажите базовый IP-адрес.
- Рекомендуется создать бастион, если у вас нет прямого подключения, предоставляемого корпоративными ИТ-отделами,
- Создание шлюза NAT требуется для обеспечения исходящего подключения к Интернету. Это станет обязательным в 2025 году и уже применяется политика мысли некоторых компаний,
- Одноранговый узел к существующей виртуальной сети, если у вас уже есть концентратор, в который требуется одноранговый узел, который может доставлять службы, такие как Бастион и VPN-шлюз. Будьте внимательны, чтобы выбрать базовый IP-адрес, совместимый с одноранговой виртуальной сетью. Проверьте транзит шлюза, если одноранговая виртуальная сеть имеет шлюз.
Использование существующей виртуальной сети
Прежде чем использовать существующую виртуальную сеть, проверьте предварительные требования в Планирование рабочей области CycleCloud для развертывания Slurm
Параметры Slurm
Укажите размер и образ виртуальной машины для планировщика и узлов входа. Изображения — это образы HPC, предоставляемые в Azure Marketplace с соответствующими URI:
Имя изображения | УРИ |
---|---|
Альма Linux 8.7 | almalinux:almalinux-hpc:8_7-hpc-gen2:latest |
Ubuntu 20.04 | microsoft-dsvm:ubuntu-hpc:2004:latest |
Ubuntu 22.04 | microsoft-dsvm:ubuntu-hpc:2204:latest |
Пользовательский образ | Вам потребуется указать URI изображения или идентификатор изображения. |
Если выбрать Custom Image
необходимо указать URI образа для существующего образа Marketplace или идентификатора образа для образа в коллекции вычислений Azure.
Вы также можете проверить Use image on all nodes
, если вы хотите, чтобы планировщик, узлы входа и вычислительные узлы использовали тот же образ.
Задайте количество узлов входа, которые требуется подготовить при запуске, и максимальное число. Наконец, включение проверок работоспособности будет выполнять проверки работоспособности узлов для HPC и секций GPU для автоматического удаления неработоспособных узлов при запуске.
параметров Slurm
Если вы хотите включить учет заданий Slurm, установите флажок, чтобы отобразить параметры подключения. Обратите внимание, что у вас должен быть ранее развернутый ресурс гибкого сервера Базы данных Azure для MySQL. Подключение через предоставление полного доменного имени или частного IP-адреса доступно, если вы решили предоставить собственную виртуальную сеть или использовать пиринг виртуальной сети при создании виртуальной сети в процессе развертывания. Кроме того, подключение через частную конечную точку доступно при выборе создания виртуальной сети.
частной конечной точки
Параметры секции
Рабочая область Azure CycleCloud для Slurm поставляется с 3 определенными секциями Slurm:
- HTC : для заданий, отличных от MPI,
- HPC: для тесно связанных заданий MPI в основном с использованием типов виртуальных машин с поддержкой InfiniBand.
- GPU: для заданий GPU, отличных от MPI и MPI
Вы можете задать изображение и максимальное количество узлов, которые будут динамически подготовлены CycleCloud для каждой секции. Только раздел HTC позволит использовать экземпляры Spot, так как обычно не рекомендуется использовать экземпляры Spot для заданий HPC и GPU. Однако эти параметры можно переопределить после развертывания в пользовательском интерфейсе CycleCloud.
Теги
Задайте соответствующие теги для необходимых ресурсов.
Node Array
теги будут применяться к виртуальным машинам, динамически подготовленным CycleCloud.
Просмотр и создание
Просмотрите параметры. Этот шаг также будет обрабатываться для некоторых проверок. проверки
При передаче нажмите кнопку "Создать
Выполните действия и состояние развертывания.
Проверка развертывания
Подключитесь к ccw-cyclecloud-vm
с помощью бастиона с ключами имени пользователя и SSH, указанными во время развертывания.
При подключении проверьте журналы cloud-init, чтобы убедиться, что все правильно.
$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group:
Cluster nodes:
scheduler: Off -- --
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0]. Up 754.29 seconds
Затем установите подключение между клиентским компьютером и виртуальной машиной CycleCloud. Это может быть из корпоративного ИТ-отдела, VPN, туннелирования Бастиона, присоединенного общедоступного IP-адреса, если ваша компания разрешает ее. Подключитесь к веб-интерфейсу, перейдя к https://<cycleccloud_ip>, и выполните проверку подлинности с помощью имени пользователя и пароля, предоставленного во время развертывания. Убедитесь, что запущен планировщик и узел входа.
Подключение к узлу входа
При использовании бастиона используйте один из скриптов служебной программы util/ssh_thru_bastion.sh или util/tunnel_thru_bastion.sh для подключения, предоставленные здесь. Если вы не используете Бастион, необходимо установить прямое подключение самостоятельно.