Поделиться через


Настройка InfiniBand

Эта статья ссылается на CentOS, дистрибутив Linux, который приближается к состоянию конца жизни (EOL). Обратите внимание на использование и план соответствующим образом. Дополнительные сведения см. в руководстве centOS End Of Life.

Применимо к: ✔️ Виртуальные машины Linux ✔️ Виртуальные машины Windows ✔️ Универсальные масштабируемые наборы

Совет

Воспользуйтесь средством выбора виртуальных машин, чтобы подобрать машину оптимального размера для своей рабочей нагрузки.

В этой статье содержатся некоторые сведения о экземплярах с поддержкой RDMA для использования в сети InfiniBand (IB). Сетевая архитектура InfiniBand обеспечивает полную структуру дерева жира (то есть топологию сети, которая обеспечивает высокую пропускную способность и низкую задержку), обеспечивая неблокировку, бисекционную симметрию. Эта конфигурация обеспечивает одинаковую пропускную способность между двумя виртуальными машинами (виртуальными машинами) в одном масштабируемом наборе виртуальных машин (VMSS).

Экземпляры с поддержкой RDMA

Виртуальные машины HPC большинства размеров оснащены сетевым интерфейсом для удаленного прямого доступа к памяти (RDMA). Некоторые размеры виртуальных машин серии N, отмеченные символом "r", также поддерживают RDMA. Этот интерфейс является дополнением к стандартному сетевому интерфейсу Azure Ethernet, который доступен для виртуальных машин других размеров.

Этот дополнительный интерфейс позволяет экземплярам RDMA обмениваться данными по сети InfiniBand, работающей по тарифам HDR для HBv4, HBv3, HBv2, EDR для HB, HC, HX, NDv2 и FDR для H16r, H16mr и других виртуальных машин с поддержкой RDMA. Эти возможности RDMA позволяют увеличить масштабируемость и производительность приложений с интерфейсом MPI.

Примечание.

Поддержка SR-IOV. В Azure HPC в настоящее время существует два класса виртуальных машин в зависимости от того, поддерживают ли они SR-IOV для InfiniBand. В настоящее время почти все виртуальные машины новых поколений с поддержкой RDMA или InfiniBand в среде Azure поддерживают SR-IOV, кроме H16r, H16mr и NC24r. RDMA включен только через сеть InfiniBand и поддерживается для всех виртуальных машин с поддержкой RDMA. Технология IP на базе IB (IP over IB) поддерживается только на виртуальных машинах с поддержкой SR-IOV. RDMA не работает в сети Ethernet.

Параметры конфигурации кластера

Azure предоставляет несколько вариантов для создания кластеров виртуальных машин HPC, которые могут взаимодействовать с помощью сети RDMA, включая:

  • Виртуальные машины. Разверните виртуальные машины HPC с поддержкой RDMA в одном масштабируемом наборе или группе доступности (используя модель развертывания Azure Resource Manager). Если вы используете классическую модель развертывания, разверните виртуальные машины в одну облачную службу.

  • Масштабируемый набор виртуальных машин. В масштабируемом наборе виртуальных машин ограничьте развертывание одной группой размещения, чтобы обеспечить возможность обмена данными по протоколу InfiniBand в масштабируемом наборе. Например, в шаблоне Resource Manager задайте значение true для свойства singlePlacementGroup.

Обратите внимание, что максимальный размер масштабируемого набора, который можно установить с помощью свойства singlePlacementGroup=true, по умолчанию ограничен до 100 виртуальных машин. Если потребность в масштабировании заданий HPC превышает 100 виртуальных машин в одном арендаторе, вы можете запросить увеличение, отправив бесплатный запрос в службу поддержки клиентов. Ограничение на количество виртуальных машин в одном масштабируемом наборе можно повысить до 300. Обратите внимание, что при развертывании виртуальных машин с использованием групп доступности верхнее ограничение составляет 200 виртуальных машин на группу.

Кроме того, VMSS служит границей изоляции между рабочими нагрузками в одном кластере, гарантируя, что экземпляры в разных виртуальных машинах остаются изолированными друг от друга для обеспечения безопасности.

Примечание.

MPI между виртуальными машинами: если требуется RDMA (например, с использованием обмена данными MPI) между виртуальными машинами, убедитесь, что виртуальные машины находятся в одном масштабируемом наборе или группе доступности виртуальных машин.

Рекомендации по развертыванию

  • Подписка Azure. Чтобы развернуть большое число экземпляров для ресурсоемких вычислений, рекомендуем подписку с оплатой по мере использования или другие варианты покупки. Если вы используете бесплатную учетную запись Azure, вам доступно ограниченное количество вычислительных ядер Azure.

  • Цены и доступность. Вы можете уточнить цены и доступность виртуальных машин по регионам Azure.

  • Квота ядер. Вам может потребоваться увеличить стандартную квоту на число ядер в подписке Azure. Кроме того, количество ядер, которые можно развернуть для некоторых семейств размеров виртуальных машин (включая серию H), может быть ограничено условиями вашей подписки. Чтобы увеличить квоту, отправьте запрос в службу поддержки. Это бесплатная услуга. (Ограничения по умолчанию могут быть разными в зависимости от категории подписки).

    Примечание.

    Если вам нужны ресурсы в очень большом объеме, обратитесь в службу поддержки Azure. Квоты Azure — это ограничения по кредитам, а не гарантированная емкость. Вне зависимости от квоты с вас будет взиматься плата только за используемые ядра.

  • Виртуальная сетьвиртуальная сеть Azure не требуется для использования ресурсоемких экземпляров. Но для нескольких развертываний вам потребуется по крайней мере облачная виртуальная сеть Azure или подключение типа "сеть — сеть", если нужен доступ к локальным ресурсам. При необходимости создайте виртуальную сеть, чтобы развернуть экземпляры. Добавление виртуальных машин для ресурсоемких вычислений в виртуальную сеть в территориальной группе не поддерживается.

  • Изменение размера. Из-за специализированного оборудования изменить можно только размер экземпляров для ресурсоемких вычислений одного семейства размеров (серии H или N). Например, можно изменить только размер виртуальной машины серии H (один размер из серии H на другой размер из этой же серии). Для некоторых виртуальных машин существуют дополнительные факторы, связанные с поддержкой драйвера InfiniBand и дисков NVMe.

Следующие шаги