Поделиться через


Вычислительные узлы HPC не отображаются или находятся в состоянии ошибки

В этой статье описывается решение проблемы, в которой вычислительные узлы не отображаются или находятся в состоянии ошибки при развертывании кластера высокопроизводительных вычислений (HPC) в Azure.

Симптомы

При развертывании кластера HPC в Azure развертывание завершается успешно, но вычислительные узлы не отображаются или находятся в состоянии ошибки. В журналах службы HpcNodeManager на вычислительном узле отображаются ошибки, связанные с сертификатами и сетями.

Ниже приведен пример сетевой ошибки:

System.Net.Sockets.SocketException: сбой попытки подключения, так как подключенная сторона не ответила должным образом через период времени или не удалось установить подключение, так как подключенный узел не удалось ответить x.x.x.x.x:xxx

Причина

Эта проблема возникает из-за проблем с конфигурацией сети или несоответствия сертификатов определенного типа.

Решение

Проверьте ошибки сети и сертификатов в журналах службы HpcNodeManager на вычислительном узле.

Исправлены несоответствия сертификатов, если есть какие-либо. Дополнительные сведения см. в разделе "Управление сертификатами для кластера HPC с пакетом 2019".

Чтобы устранить проблемы с сетью с приведенной выше ошибкой, настройте правила группы безопасности сети и правила брандмауэра. Дополнительные сведения см. в разделе "Настройка группы безопасности сети для виртуальной сети Azure" в разделе "Ускорение использования виртуальной машины IaaS Azure" из кластера пакетов HPC.

Свяжитесь с нами для получения помощи

Если у вас есть вопросы или вам нужна помощь, создайте запрос в службу поддержки или обратитесь за поддержкой сообщества Azure. Вы также можете отправить отзыв о продукте в сообщество отзывов Azure.