Проверки работоспособности для виртуальных машин HPC
Azure предоставляет несколько автоматизированных тестов для выявления неработоспособных виртуальных машин. Используя эти автоматизированные тесты, вы можете удалить неработоспособную виртуальную машину из парка при обнаружении и до того, как клиенты смогут получить доступ к ним. Однако иногда эти автоматические тесты не распознают все неработоспособные виртуальные машины.
Примечание.
Автоматизированные проверки работоспособности в Azure постоянно обновляются и улучшаются.
Некоторые высокопроизводительные вычисления (HPC), особенно приложения HPC, тесно связанные, чувствительны к неработоспособным виртуальным машинам. Эта чувствительность может привести к тому, что в приложении HPC произойдет сбой во время выполнения или оно будет выполняться медленнее, чем ожидалось. Вероятность того, что вы можете столкнуться с неработоспособными виртуальными машинами, возрастает по мере увеличения масштаба тесно связанных приложений HPC.
В качестве меры предосторожности следует выполнять собственные проверки работоспособности, особенно при запуске тесно связанных приложений HPC в большом масштабе. Выполнение собственных проверок работоспособности повышает вероятность оптимального выполнения приложений HPC в масштабе.
Рекомендуется проверить работоспособность следующих компонентов, чтобы убедиться, что они работают должным образом с ожидаемой производительностью: сеть InfiniBand, память, хранилище и ядра ЦП.
Проверки работоспособности InfiniBand
В большинстве случаев, чтобы проверить работоспособность сети InfiniBand, достаточно проанализировать задержку и пропускную способность типа "точка — точка" с помощью теста "попарное считывание" (отправка и получение сообщения).
Тест Intel IMP-MPI1 PingPong является полезным вариантом, так как он предварительно создан и доступен на образе HPC HPC 7.7+ в Azure Marketplace. Существует версия, включенная в среду Intel MPI (интерфейс передачи сообщений) и версия в среде MPI HPC-X, хотя обычно вы получаете лучшую задержку и производительность пропускной способности с помощью версии HPC-X. Сценарии для запуска тестов "попарное считывание" Intel IMP-MPI1 доступны в проекте тестирования производительности IMB-MPI.
В указанной ниже таблице приведены ожидаемая задержка сети InfiniBand и пропускная способность, измеряемые с помощью теста производительности "попарное считывание" HPC-X Intel IMB-IMP1 на виртуальных машинах HPC. Значения, находящиеся за пределами следующих диапазонов, считаются неработоспособными.
SKU виртуальной машины | Ожидаемая задержка сети | Ожидаемая пропускная способность сети |
---|---|---|
HB120_v2 | < 2 мкс | >23,0 ГБ/с |
HC44 | < 2 мкс | >11,5 ГБ/с |
HB60 | < 2 мкс | >11,5 ГБ/с |
Другими инструментами и тестами производительности, на которые следует обратить внимание, являются osu-micro-benchmarks и Mellanox ClusterKit. Последний также предварительно установлен в образе HPC HPC 7.7+ Azure Marketplace в среде HPC-X. Примеры сценариев ClusterKit доступны в проекте сценариев проверки работоспособности Azure.
Проверки работоспособности памяти
Измерение пропускной способности памяти является хорошим способом проверки работоспособности памяти виртуальной машины. Средство Intel Memory Latency Checker (MLC) прекрасно подходит для измерения пропускной способности памяти. Второй способ — создать и запустить тест производительности потока или использовать набор ClusterKit, с помощью которого можно также измерить пропускную способность памяти. Примеры сценариев можно найти в проекте сценариев проверки работоспособности Azure.
В указанной ниже таблице показана ожидаемая пропускная способность памяти для каждой виртуальной машины HPC, на которой выполняется Intel MLC. Память с пропускной способностью, находящейся за пределами этих диапазонов, будет считаться неработоспособной.
SKU виртуальной машины | Ожидаемая пропускная способность памяти |
---|---|
HB120_v2 | > 300 ГБ/с |
HC44 | > 200 ГБ/с |
HB60 | > 250 ГБ/с |
Проверки работоспособности хранилища
Важно понять, какое решение хранилища используется и какова ожидаемая производительность операций ввода-вывода. Затем проверьте ожидаемую производительность, выполнив измерение производительности операций ввода-вывода. Вы можете выбрать одно из нескольких средств измерения производительности операций ввода-вывода:
Чтобы оценить работоспособность хранилища, необходимо создать максимальную пропускную способность ввода-вывода для создания теста ввода-вывода в секунду. Затем вы сравниваете результаты тестов операций ввода-вывода с ожидаемой производительностью ввода-вывода для решения хранилища.
Примеры сценариев IOR можно найти в проекте IOR и mdtest. Примеры сценариев FIO можно найти в проекте FIO.
Работоспособность ядра ЦП
Отличный способ убедиться, что ядра ЦП работоспособны и выполняются должным образом, чтобы измерять максимальные операции с плавающей запятой в секунду (FLOPS). Затем сравните измеряемые результаты с теоретически ожидаемым FLOPS.
Для измерения максимального количества FLOPS можно использовать средство High Performance Linpack (HPL). Преимуществом запуска HPL является то, что это может помочь определить некоторые плохой памяти DIMMs (двойные модули памяти в строке). Кроме того, он может помочь оценить общую работоспособность кластера HPC, так как он выполняет некоторое ограниченное тестирование для тесного взаимодействия.
Центры обработки данных HPC часто используют HPL для записи в новой системе HPC. Примеры сценариев HPL можно найти в проекте linpack.