Создание кластера пакета HPC с высоким уровнем доступности в Azure
В этой статье мы рассмотрим шаги и рекомендации по созданию высокодоступного кластера пакетов HPC в Azure.
Рекомендации по обеспечению высокого уровня доступности кластера
Типичный кластер пакетов HPC состоит из
В облачной среде Azure любой из указанных выше компонентов может завершиться сбоем, например, головной узел, перезагруженный для обновления Windows, некоторые вычислительные узлы могут перезагружаться, так как вы используете виртуальную машину с низким приоритетом. Таким образом, как можно настроить высокодоступный кластер пакетов HPC, который удовлетворяет следующим требованиям:
Сбой любого компонента, упоминаемого выше, рабочая нагрузка пользователя по-прежнему может выполняться без отмены или сбоя.
Задачи, выполняемые на неработоспособных вычислительных узлах, должны быть перепланированы на другие вычислительные узлы.
Кластер по-прежнему сможет обслуживать функциональные возможности, включая управление кластерами, управление заданиями
Таким образом, давайте обсудим все ситуации сбоя компонентов и их решение с высоким уровнем доступности.
Работа с сбоем базы данных
У вас есть несколько вариантов, чтобы получить высокодоступную базу данных SQL в облаке:
Использование базы данных SQL Azure
С помощью шаблона ARM для развертывания кластера SQL AlwaysOn можно обратиться к этом блоге
Работа с сбоем головного узла
Настройте по крайней мере 3 головного узла кластера. При такой конфигурации любой сбой головного узла приведет к перемещению активной службы HPC с этого головного узла на другие.
Работа с ошибкой AD
Если HPC не удалось подключиться к контроллеру домена, администратор и пользователь не смогут подключиться к службе HPC, поэтому не сможет управлять заданиями и отправлять их в кластер. И новые задания не смогут запускаться на узлах компьютера, присоединенных к домену, так как служба NodeManager не удалось проверить учетные данные задания. Таким образом, вам потребуется рассмотреть следующие варианты:
Развертывание контроллера домена с высоким уровнем доступности с помощью кластера пакетов HPC в Azure
Использование доменной службы Azure AD. Во время развертывания кластера можно просто присоединить все узлы кластера к этому домену и получить высокодоступную службу доменов из Azure.
Использование решение интеграции с пакетом HPC Azure AD без подключения узлов кластера к любому домену. Таким образом, если служба HPC имеет подключение к службе Azure AD.
Работа с сбоем сети
Сеть в центре обработки данных Azure имеет высокий уровень доступности, поэтому нам не нужно иметь сеть резервного копирования.
Создание кластера пакета HPC с высоким уровнем доступности
У нас есть шаблон ARM здесь, выберите, что позволяет развернуть высокодоступный кластер HPC с параметрами:
Создание базы данных SQL Azure
Подключение к существующему домену Active Directory
Создание кластера пакета HPC с 3 головным узлом
Шаблон : кластер высокой доступности с базами данных SQL Azure для рабочих нагрузок Windows с существующими домена Active Directory
Этот шаблон развертывает кластер пакета HPC с высоким уровнем доступности для рабочих нагрузок Windows HPC в существующем лесу домена Active Directory. Кластер включает три головного узла, базы данных SQL Azure и настраиваемое количество вычислительных узлов Windows.
Общие папки кластера пакетов HPC
В настоящее время во всех шаблонах ARM пакета HPC мы создадим общую папку кластера на одном из головного узла, который не имеет высокой доступности, как если бы этот головной узел отключен, общий ресурс не будет доступен службе HPC, работающей на другом головном узле. В основном это не повлияет на выполнение заданий и управление узлами.
С помощью файлов Azure эти общие папки можно переместить в общие папки Azure Files с разрешениями SMB, чтобы сделать их доступными. Обратитесь к этой документации.
Имя общего ресурса | Использование | Расположение по умолчанию | Влияние при снижении | Способ сделать высокий уровень доступности |
---|---|---|---|---|
Удаленная установка общей папки | После установки кластера мы помещаем двоичные файлы установки пакета HPC в эту папку общего ресурса, чтобы клиентские компьютеры и вычислительные машины могли выполнять установку каталога из этой общей папки. | \\<HN3>\REMINST |
Если эта общая папка недоступна или недоступна, она не влияет на существующие функциональные возможности кластера HPC. | Администратор кластера также может создавать одни и те же общие папки на двух других головных узлах и копировать в нем двоичные файлы, чтобы любой головной узел по-прежнему доступен. |
Общая папка регистрации HPC SOA | Этот общий ресурс хранит файл регистрации службы SOA | \\<HN3>\HpcServiceRegistration |
Задание службы SOA, использующее файлы регистрации в этой общей папке, не будет выполняться | При регистрации нового файла конфигурации службы SOA не помещайте файл регистрации в общую папку, а используя импорт файла конфигурации с высоким уровнем доступности... из диспетчера кластеров для импорта файла регистрации службы SOA в надежное хранилище кластера HPC, чтобы файл регистрации был доступен, даже если общий ресурс отключен. |
Общая папка среды выполнения HPC SOA | В этой общей папке хранятся общие данные задания SOA | \\<HN3>\Runtime$ |
Задание SOA с общими данными завершится ошибкой | Клиент SOA должен поместить общие данные в хранилище Azure, чтобы общие данные по-прежнему доступны даже в общей папке среды выполнения. |
HPC SOA TraceRepository | Репозиторий трассировок диагностики Soa. | \\<HN3>\TraceRepository |
Если трассировка диагностики SOA включена, трассировка не будет собираться. | Используйте общую папку файлов Azure. |
Общий ресурс диагностики HPC | В этой общей папке хранятся результаты теста диагностики | \\<HN3>\Diagnostics |
Если эта общая папка отключена, задание диагностики HPC завершится ошибкой, так как оно не имеет места для записи результата теста. | Администратор кластера может переключиться на новую общую папку diag, когда он хочет выполнить тесты диаг. Чтобы изменить новую общую папку diag, запустите cmd powerShell HPC set-HpcClusterRegistry -PropertyName DiagnosticsShare -PropertyValue "\\<HN2>\diagnostics" |
CcpSpoolDir | Выходная общая папка spool для вычислительных узлов. | \\<HN3>\CcpSpoolDir |
Если используется для выходных данных задачи, задача не сможет записывать выходные данные. | Используйте общую папку файлов Azure. |