Образы виртуальных машин Azure HPC
Область применения: ✔️ Виртуальные машины Linux ✔️ Гибкие масштабируемые наборы ✔️ Универсальные масштабируемые наборы
В этой статье содержатся некоторые сведения о образах виртуальных машин HPC, которые будут использоваться для запуска виртуальных машин серии H и GPU с поддержкой N.
Команда Azure HPC предлагает оптимизированные и предварительно настроенные образы виртуальных машин Linux для рабочих нагрузок HPC и искусственного интеллекта. Эти образы виртуальных машин:
- На основе вышестоящих образов виртуальных машин Ubuntu и AlmaLinux Marketplace.
- Предварительно настроен с драйвером NVIDIA Mellanox OFED для InfiniBand, драйверов GPU NVIDIA, популярных библиотек MPI, настроенных поставщиком библиотек HPC и рекомендуемых оптимизаций производительности.
- Включая оптимизацию и рекомендуемые конфигурации для обеспечения оптимальной производительности, согласованности и надежности.
Доступность в Azure
Образы HPC можно использовать при создании виртуальной машины из Azure Marketplace или Azure CLI. Сведения о других методах развертывания см. в разделе "Развертывание образов виртуальных машин HPC".
Azure Marketplace
Ubuntu HPC
Поиск издателем Microsoft-DSVM
или AlmaLinux HPC
издателемAlmaLinux
.
Azure CLI
Выполните следующие команды, чтобы найти URL-адреса образа образов HPC:
Ubuntu-HPC
az vm image list --publisher microsoft-dsvm --offer ubuntu-hpc --output table --all
Все образы поддерживают виртуальные машины 2-го поколения.
AlmaLinux-HPC
az vm image list --publisher almalinux --offer almalinux-hpc --output table --all
Все образы поддерживают виртуальные машины 1-го поколения и 2-го поколения.
Поддерживаемые размеры виртуальных машин
Образы виртуальных машин HPC поддерживают следующие размеры виртуальных машин:
- Standard_HB60rs
- Standard_HB120rs_v2
- Standard_HB120rs_v3
- Standard_HB120rs_v4
- Standard_HC44rs
- Standard_ND40rs_v2
- Standard_ND96asr_v4
- Standard_ND96amsr_A100_v4
- Standard_ND96isr_H100_v5
Сведения о размерах виртуальных машин Azure см. в последней таблице поддержки размера виртуальных машин серии H и N.
Установленные пакеты программного обеспечения
- Mellanox OFED 24.01-0.3.3.1
- Предварительно настроен IPoIB (IP-over-InfiniBand)
- Популярные библиотеки MPI на основе InfiniBand
- HPC-X версии 2.18 с PMIx-4 и без нее
- Intel MPI 2021.12.0
- MVAPICH2 2.3.7-1
- OpenMPI 5.0.2 с PMIx-4
- Среда выполнения коммуникации
- Libfabric
- OpenUCX
- NCCL 2.21.5-1
- Подключаемый модуль RDMA NCCL
- Оптимизированные библиотеки
- Amd Optimizing C/C++ и Fortran Compilers 4.0.0-1
- Intel MKL 2024.0.0.49673
- Драйверы GPU
- Драйвер GPU NVIDIA 535.161.08
- Одноранговая память NVIDIA (GPU Direct RDMA)
- NVIDIA Fabric Manager
- CUDA 12.4
- GDRCopy 2.3
- Диспетчер GPU Центра обработки данных 3.3.3
- Средство диагностики Azure HPC
- Настройки на основе SKU
- Файлы топологии
- Конфигурация NCCL
- Moby 24.0.7-ubuntu22.04u1
- Контейнер NVIDIA Docker 24.0.7-1
- Управляемый Azure Lustre 2.15.4-42-gd6d405d
- Moneo v0.3.5
- Проверка работоспособности Azure HPC версии 0.4.2
Установленный индекс версии в образе виртуальной машины находится в этом расположении: /opt/azurehpc/component_versions.txt
Библиотеки MPI и пакеты программного обеспечения доступны в виде модулей среды. Чтобы загрузить библиотеку или пакет MPI, выполните следующую команду:
module load mpi/<mpi-library-name>
module load <package-name>
Настройка и оптимизация
Дополнительные сведения о том, какие пакеты и конфигурации включены в каждый образ виртуальной машины, см. в репозитории azhpc-образов на сайте GitHub. Включенные конфигурации основаны на рекомендациях по оптимизации от поставщиков и партнеров, а также на основе общих рабочих нагрузок HPC и методик использования в традиционных системах HPC.
Агент Linux Azure (WAAgent)
- Ограничение использования ресурсов ЦП и памяти waagent (агента виртуальной машины, работающего на каждой виртуальной машине Linux Azure).
- При необходимости рекомендуется отключить waagent в начале скрипта задания и включить его обратно в конце для конфиденциальных рабочих нагрузок ЦП следующим образом:
sudo systemctl stop waagent <HPC job> sudo systemctl restart waagent
Более высокие ограничения памяти
- Установите ограничение максимально заблокированной памяти на неограниченное
- Задать количество открытых файлов в 65535
Режим восстановления зоны
- Задайте для zone_reclaim_mode значение 1
Отключение управляющей программы брандмауэра для запуска заданий MPI
Развертывание образов виртуальных машин HPC
Как показано ниже, образы виртуальных машин HPC доступны из Azure Marketplace и Azure CLI. Их можно развернуть с помощью различных транспортных средств развертывания в Azure (Azure CycleCloud, пакетная служба Azure, шаблонов ARM и т. д.). Скрипты AzureHPC позволяют быстро развернуть кластер HPC с помощью этих образов.