Вычислительные узлы HPC не отображаются или находятся в состоянии ошибки
В этой статье описывается решение проблемы, в которой вычислительные узлы не отображаются или находятся в состоянии ошибки при развертывании кластера высокопроизводительных вычислений (HPC) в Azure.
Симптомы
При развертывании кластера HPC в Azure развертывание завершается успешно, но вычислительные узлы не отображаются или находятся в состоянии ошибки. В журналах службы HpcNodeManager на вычислительном узле отображаются ошибки, связанные с сертификатами и сетями.
Ниже приведен пример сетевой ошибки:
System.Net.Sockets.SocketException: сбой попытки подключения, так как подключенная сторона не ответила должным образом через период времени или не удалось установить подключение, так как подключенный узел не удалось ответить x.x.x.x.x:xxx
Причина
Эта проблема возникает из-за проблем с конфигурацией сети или несоответствия сертификатов определенного типа.
Решение
Проверьте ошибки сети и сертификатов в журналах службы HpcNodeManager на вычислительном узле.
Исправлены несоответствия сертификатов, если есть какие-либо. Дополнительные сведения см. в разделе "Управление сертификатами для кластера HPC с пакетом 2019".
Чтобы устранить проблемы с сетью с приведенной выше ошибкой, настройте правила группы безопасности сети и правила брандмауэра. Дополнительные сведения см. в разделе "Настройка группы безопасности сети для виртуальной сети Azure" в разделе "Ускорение использования виртуальной машины IaaS Azure" из кластера пакетов HPC.
Свяжитесь с нами для получения помощи
Если у вас есть вопросы или вам нужна помощь, создайте запрос в службу поддержки или обратитесь за поддержкой сообщества Azure. Вы также можете отправить отзыв о продукте в сообщество отзывов Azure.