Надежность в обучении сообщества Майкрософт
Microsoft Community Training — это облачное решение, основанное на Azure, которое может предоставлять крупномасштабные и высокопроизводительные учебные программы с высоким качеством и эффективностью. С помощью обучения сообщества организации всех размеров и типов могут выполнять крупномасштабные учебные программы для своих внутренних и внешних сообществ. Общины могут включать фронтовых работников, расширенных рабочих ролей, экосистему партнеров, добровольную сеть и бенефициаров программ.
В этой статье описывается поддержка надежности в обучении сообщества и охватывает как региональную устойчивость с зонами доступности, так и аварийное восстановление и непрерывность бизнес-процессов. Более подробный обзор принципа надежности в Azure см. в статье "Надежность Azure".
Поддержка зоны доступности
Зоны доступности — это физически отдельные группы центров обработки данных в каждом регионе Azure. При сбое одной зоны службы могут выполнять отработку отказа в одну из оставшихся зон.
Дополнительные сведения о зонах доступности в Azure см. в статье "Что такое зоны доступности?".
Обучение сообщества использует зоны доступности Azure для обеспечения высокой доступности и отказоустойчивости в регионе Azure. Обучение сообщества обеспечивает поддержку зоны доступности уровня данных и управления:
Плоскость управления является избыточной по зонам в основных регионах доступности.
Плоскость данных может быть зональной или избыточной между зонами в зависимости от того, что вы выбрали для ваших потребностей. Однако настоятельно рекомендуется выбрать избыточное между зонами развертывание, чтобы избежать потери данных и поддержания доступности службы во время сбоя зоны.
Необходимые компоненты
Зоны доступности поддерживаются для следующих номеров SKU для обучения сообщества:
- Стандартный (более низкий масштаб пользователей)
- Премиум (высокий масштаб пользователей)
Обучение сообщества поддерживается только в парных регионах. Каждый дополнительный регион развертывается с зональной конфигурацией. В следующей таблице показаны все регионы, поддерживающие зоны доступности для обучения сообщества, а также их парный регион.
Основной регион | Парный регион |
---|---|
UKSouth | UKWest |
AustraliaEast | AustraliaSoutheast |
EastUS | WestUS |
EastUS2 | CentralUS |
NorthEurope | WestEurope |
WestUS3 | EastUS |
ШвецияCentral | ШвецияSouth |
Поддержка зональной отработки отказа
Для обучения сообщества используется множество служб Azure зависимостей, таких как служба приложений и SQL Azure. При выборе избыточного между зонами развертывания Обучение сообщества также создает зональные избыточные предложения этих базовых ресурсов службы Azure. Если одна зона завершается ошибкой, все ресурсы, включая ресурсы зависимостей, отработка отказа в одну из работоспособных зон.
Создание ресурса с включенной зоной доступности
Community Training предоставляет конфигурацию для зон доступности только во время создания экземпляра. Если вы хотите изменить конфигурацию зоны доступности после создания экземпляра, необходимо создать новый экземпляр.
Взаимодействие с зонами вниз
Зональный. Во время сбоя на уровне зоны обучение сообщества может иметь полное или частичное нарушение работы службы. Степень доступности зависит от различных факторов, таких как отсутствие всего центра обработки данных или отсутствие определенной службы зависимостей в этой зоне.
Избыточность между зонами. Во время сбоя на уровне зоны вы не должны влиять на подготовленные ресурсы. Однако вы должны быть готовы к краткому прерыванию связи с этими ресурсами. В ситуации уменьшения зоны клиенты обычно получают коды ошибок 409, а также пытается повторно установить подключения через соответствующие интервалы. Новые запросы направляются на здоровые узлы без влияния на пользователя. Во время сбоев на уровне зоны пользователи могут создавать новые ресурсы и успешно масштабировать существующие.
Аварийное восстановление и непрерывность бизнес-процессов
Аварийное восстановление (АВАРИЙНОе восстановление) заключается в восстановлении из событий высокой нагрузки, таких как стихийные бедствия или неудачные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем начать думать о создании плана аварийного восстановления, ознакомьтесь с рекомендациями по разработке стратегии аварийного восстановления.
Когда дело доходит до аварийного восстановления, корпорация Майкрософт использует модель общей ответственности. В модели общей ответственности корпорация Майкрософт гарантирует, что доступны базовые службы инфраструктуры и платформы. В то же время многие службы Azure не автоматически реплицируют данные или не реплицируются из неудающегося региона для перекрестной репликации в другой включенный регион. Для этих служб вы отвечаете за настройку плана аварийного восстановления, который работает для рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления, и вы можете использовать специальные функции службы для поддержки быстрого восстановления для разработки плана аварийного восстановления .
Команда microsoft Community Training управляет всей процедурой аварийного восстановления для обучения сообщества. Аварийное восстановление не является активным или активным пассивным, но вместо этого основано на восстановлении из последней доступной резервной копии служб Azure. Команда обучения сообщества вручную создает все ресурсы в парном регионе из резервного копирования данных.
Примечание.
Аварийное восстановление обучения сообщества поддерживается только в парных регионах.
Аварийное восстановление в географическом регионе с несколькими регионами
В региональной катастрофе плоскость управления вручную выполняется отработка отказа в парный регион. В то время, когда отработка отказа завершится, следует ожидать некоторого снижения уровня обслуживания. После отработки отказа поддерживаются только операции только для чтения, пока регион аварийного восстановления не будет подключен к сети. Служба выполняется вручную сбоем обратно в исходный регион после возобновления работы в сети и возобновления всех операций. Ожидается, что цель точки восстановления (RPO) составляет 10 минут; Цель времени восстановления (RTO), 24 часа.
Для плоскости данных обучение сообщества предлагает управляемое корпорацией майкрософт аварийное восстановление. Чтобы использовать управляемое аварийное восстановление, необходимо включить аварийное восстановление во время создания экземпляра обучения сообщества в Azure. После включения аварийного восстановления корпорация Майкрософт сохраняет резервную копию хранилища и базы данных в парном регионе. Ожидается, что целевая точка восстановления (RPO) составляет 12 часов; Цель времени восстановления (RTO), 48 часов.
Примечание.
RTO зависит от размера базы данных и хранилища, задержки между парным регионом. Емкость базы данных или виртуальной машины хранилища (SKU). RPO зависит от базовых ресурсов Azure, таких как хранилище SQL Azure и Azure. Дополнительные сведения о RTO и RPO см. в разделе "Обзор аварийного восстановления".
Обнаружение сбоев, уведомление и управление
Когда проверка работоспособности обучения сообщества обнаруживает сбой любой службы и в любом регионе, корпорация Майкрософт запрашивает согласие на отработку отказа в парном регионе. Корпорация Майкрософт сообщает вам, какие функции доступны во время процедуры аварийного восстановления. После получения согласия корпорация Майкрософт сможет запустить процедуру аварийного восстановления.
Внимание
Учащиеся не смогут использовать функции аудио и видео, пока основной регион не будет работать. Рекомендуется избежать операций отправки мультимедиа до тех пор, пока основной сайт не будет работоспособным.
Устойчивость емкости и упреждающего аварийного восстановления
Корпорация Майкрософт и ее клиенты работают в рамках модели общей ответственности. Когда любой регион отключен, не только экземпляр Community Training переносится в парный регион, но и все рабочие нагрузки продуктов и клиентов также переносятся в парный регион. Эта процедура может привести к нехватке ресурсов в парном регионе или центре обработки данных. В результате доступность аварийного восстановления зависит от доступной емкости базовых ресурсов Azure.