Надежность частного ядра 5G Azure
В этой статье описывается поддержка надежности в Azure Private 5G Core. Она охватывает как региональную устойчивость с зонами доступности, так и аварийное восстановление между регионами и непрерывность бизнес-процессов. Общие сведения о надежности в Azure см. в статье "Надежность Azure".
Вы также можете развернуть частную службу Azure 5G Core как службу высокой доступности (HA) на парах устройств Azure Stack Edge (ASE). Дополнительные сведения см. в разделе "Выполнение необходимых задач" для развертывания частной мобильной сети.
Поддержка зоны доступности
Зоны доступности — это физически отдельные группы центров обработки данных в каждом регионе Azure. При сбое одной зоны службы могут выполнять отработку отказа в одну из оставшихся зон.
Дополнительные сведения о зонах доступности в Azure см. в статье "Что такое зоны доступности?"
Служба Azure Private 5G Core автоматически развертывается как избыточное по зонам в регионах Azure, поддерживающих зоны доступности, как указано в регионах Azure с поддержкой зоны доступности. Если регион поддерживает зоны доступности, все ресурсы Azure Private 5G Core, созданные в регионе, можно управлять из любой из зон доступности.
Для настройки или управления зонами доступности не требуется дополнительная работа. Отработка отказа между зонами доступности выполняется автоматически.
Необходимые компоненты
Сведения о продуктах, доступных по регионам Azure, где доступна частная служба Azure 5G Core.
Взаимодействие с зонами вниз
В сценарии сбоя на уровне зоны пользователи не должны оказывать никакого влияния, так как служба будет автоматически использовать преимущества работоспособной зоны. В начале сбоя на уровне зоны может отображаться время ожидания запросов ARM на этапе выполнения или сбой. Новые запросы будут направляться на здоровые узлы без влияния на пользователей и любые неудачные операции должны быть извлечены. Вы по-прежнему сможете создавать новые ресурсы и обновлять, отслеживать и управлять существующими ресурсами во время сбоя.
Методы безопасного развертывания
Приложение гарантирует, что все облачные состояния реплицируются между зонами доступности в регионе, поэтому все операции управления будут продолжаться без прерывания. Ядро пакета работает на пограничном сервере и не влияет на сбой зоны, поэтому будет продолжать предоставлять службу для пользователей.
Аварийное восстановление между регионами и непрерывность бизнес-процессов
Аварийное восстановление (АВАРИЙНОе восстановление) заключается в восстановлении из событий высокой нагрузки, таких как стихийные бедствия или неудачные развертывания, которые приводят к простою и потере данных. Независимо от причины, лучшее средство для аварийного восстановления является хорошо определенным и проверенным планом аварийного восстановления и проектом приложения, который активно поддерживает аварийное восстановление. Прежде чем начать думать о создании плана аварийного восстановления, ознакомьтесь с рекомендациями по разработке стратегии аварийного восстановления.
Когда дело доходит до аварийного восстановления, корпорация Майкрософт использует модель общей ответственности. В модели общей ответственности корпорация Майкрософт гарантирует, что доступны базовые службы инфраструктуры и платформы. В то же время многие службы Azure не автоматически реплицируют данные или не реплицируются из неудающегося региона для перекрестной репликации в другой включенный регион. Для этих служб вы отвечаете за настройку плана аварийного восстановления, который работает для рабочей нагрузки. Большинство служб, работающих на платформе Azure как услуга (PaaS), предоставляют функции и рекомендации для поддержки аварийного восстановления, и вы можете использовать специальные функции службы для поддержки быстрого восстановления для разработки плана аварийного восстановления .
Частный 5G Core Azure доступен только в географических регионах с несколькими регионами (3+N). Служба автоматически реплицирует учетные данные SIM в регион резервного копирования в том же географическом регионе. Это означает, что в случае сбоя региона нет потери данных. В течение четырех часов после сбоя все ресурсы в неисправном регионе доступны для просмотра с помощью инструментов портал Azure и ARM, но будут доступны только для чтения до восстановления неисправного региона. Ядро пакета, работающее на пограничном сервере, продолжает работать без прерывания работы, а сетевое подключение будет поддерживаться.
Корпорация Майкрософт отвечает за обнаружение, уведомление и поддержку облачных аспектов Azure частной службы 5G Core.
Обнаружение сбоев, уведомление и управление
Корпорация Майкрософт отслеживает базовые ресурсы, предоставляющие службу Azure Private 5G Core в каждом регионе. Если эти ресурсы начинают отображать сбои или оповещения мониторинга работоспособности, которые не ограничены одной зоной доступности, корпорация Майкрософт переместит службу в другой поддерживаемый регион в том же географическом регионе. Это шаблон Active-Active. Работоспособности служб для определенного региона можно найти в Службе Работоспособности служб Azure (Azure Private 5G Core указан в разделе "Сеть "). Вы получите уведомление о сбоях в любом регионе через обычные каналы связи Azure.
Служба автоматически реплицирует учетные данные SIM, принадлежащие службе, в регион резервного копирования с помощью операций записи в нескольких регионах Cosmos DB, поэтому в случае сбоя региона нет потери данных.
Ресурсы Azure Private 5G Core, развернутые в неисправном регионе, становятся доступны только для чтения, но ресурсы во всех остальных регионах будут продолжать работать без изменений. Если вы должны постоянно записывать ресурсы, следуйте инструкциям в статье "Настройка аварийного восстановления и обнаружение сбоев", чтобы выполнить собственную операцию аварийного восстановления и настроить службу в другом регионе.
Ядро пакета, работающее на пограничном сервере, продолжает работать без прерывания работы, а сетевое подключение будет поддерживаться.
Настройка аварийного восстановления и обнаружения сбоев
В этом разделе описывается, какие действия можно предпринять, чтобы обеспечить полностью активную плоскость управления для службы Azure Private 5G Core в случае сбоя региона. Это необходимо, если вы хотите изменить ресурсы в случае сбоя региона.
Обратите внимание, что это приведет к сбою основной службы пакетов и прерыванию сетевого подключения к UEs до восьми часов, поэтому рекомендуется использовать только эту процедуру, если у вас есть критически важные для бизнеса причины для управления ресурсами, пока регион Azure не работает.
Прежде чем событие аварийного восстановления, необходимо создать резервную копию конфигурации ресурсов в другом регионе, который поддерживает Azure Private 5G Core. При сбое региона можно повторно развернуть ядро пакета с помощью ресурсов в регионе резервного копирования.
Подготовка
Существует два типа данных конфигурации Частной конфигурации Azure 5G Core, которые необходимо создать резервную копию для аварийного восстановления: конфигурация мобильной сети и учетные данные SIM-карты. Примите во внимание следующие рекомендации.
- Обновление учетных данных SIM в регионе резервного копирования при каждом добавлении новых SIM в основной регион
- Резервное копирование конфигурации мобильной сети по крайней мере один раз в неделю или чаще, если вы вносите частые или большие изменения в конфигурацию, например создание нового сайта.
Конфигурация мобильной сети
Следуйте инструкциям в разделе "Перемещение ресурсов в другой регион ", чтобы экспортировать конфигурацию ресурсов Azure Private 5G Core и отправить ее в новый регион. Рекомендуется использовать новую группу ресурсов для конфигурации резервного копирования, чтобы четко отделить ее от активной конфигурации. Вы должны предоставить новые имена ресурсов, чтобы отличить их от ресурсов в основном регионе. Этот новый регион является пассивной резервной копией, поэтому, чтобы избежать конфликтов, вы еще не должны связать конфигурацию ядра пакетов с пограничным оборудованием. Вместо этого сохраните значения из поля packetCoreControlPlanes.platform для каждого ядра пакетов в безопасном расположении, к которому можно получить доступ, любой из которых будет выполнять процедуру восстановления (например, учетную запись хранения, на которую ссылается внутренняя документация).
Данные SIM
По соображениям безопасности Частный 5G Core Azure никогда не будет возвращать учетные данные SIM, предоставляемые службе в рамках создания SIM-карты. Поэтому невозможно экспортировать конфигурацию SIM так же, как и другие ресурсы Azure. Мы рекомендуем каждый раз, когда новые SIM добавляются в основную службу, те же SIM также добавляются в службу резервного копирования, повторяя процесс подготовки новых SIM для резервной мобильной сети.
Другие ресурсы
Развертывание Azure Private 5G Core может использовать Azure Key Vaults для хранения ключей шифрования SIM или сертификатов HTTPS для локального мониторинга. Чтобы убедиться, что ключи и сертификаты будут доступны в регионе резервного копирования, необходимо следовать документации по Azure Key Vault.
Восстановление
В случае сбоя региона сначала убедитесь, что все ресурсы в регионе резервного копирования присутствуют, запрашивая конфигурацию с помощью портал Azure или API (см. статью "Перемещение ресурсов в другой регион"). Если все ресурсы отсутствуют, остановите здесь и не следуйте остальной части этой процедуры. Возможно, вы не сможете восстановить службу на пограничном сайте без настройки ресурса.
Процесс восстановления разделен на три этапа для каждого ядра пакета:
- Отключение устройства Azure Stack Edge от неудающегося региона путем сброса
- Подключение устройства Azure Stack Edge к региону резервного копирования
- Переустановите и проверьте установку.
Этот процесс необходимо повторить для каждого ядра пакетов в мобильной сети.
Внимание
Процедура восстановления приведет к сбою основной службы пакетов и прерыванию сетевого подключения к UEs до восьми часов для каждого ядра пакетов. Мы рекомендуем выполнить только эту процедуру, в которой необходимо управлять развертыванием Azure Private 5G Core через Azure во время сбоя региона.
Отключение устройства Azure Stack Edge от неудачного региона
Устройство Azure Stack Edge в настоящее время работает с основным программным обеспечением пакета и управляется сбоем региона. Чтобы отключить устройство Azure Stack Edge от региона сбоем и удалить запущенное ядро пакета, выполните инструкции по сбросу и повторной активации устройства Azure Stack Edge. Обратите внимание, что это приведет к удалению всех программ, работающих на устройстве Azure Stack Edge, а не только программного обеспечения для ядра пакетов, поэтому убедитесь, что у вас есть возможность переустановить любое другое программное обеспечение на устройстве. Это приведет к сбою сети для всех устройств, подключенных к ядру пакетов на этом устройстве Azure Stack Edge.
Подключение устройства Azure Stack Edge к новому региону
Следуйте инструкциям в Комиссии кластера AKS, чтобы повторно развернуть кластер Служба Azure Kubernetes на устройстве Azure Stack Edge. Убедитесь, что вы используете другое имя для этой новой установки, чтобы избежать столкновений, когда не удалось восстановить регион. В рамках этого процесса вы получите новый идентификатор пользовательского расположения для кластера, который следует заметить.
Переустановка и проверка
Скопируйте значения packetCoreControlPlanes.platform, хранящиеся в разделе "Подготовка", и обновите поле packetCoreControlPlane.platform.customLocation с указанным выше идентификатором расположения. Убедитесь, что пакетCoreControlPlane.platform.azureStackEdgeDevice соответствует идентификатору устройства Azure Stack Edge, на которое вы хотите установить ядро пакета. Теперь следуйте инструкциям по изменению ядра пакетов, чтобы обновить ядро пакета резервного копирования со значениями платформы. Это приведет к активации развертывания ядра пакета на устройстве Azure Stack Edge.
Чтобы убедиться, что подключение UE восстановлено, и все сетевые функции работают, следует следовать обычному процессу проверки установки нового сайта. В частности, следует убедиться, что панели мониторинга сайта в портал Azure отображают регистрации UE, а данные передаются через плоскость данных.
Не удалось восстановить регион
Когда не удалось восстановить регион, необходимо убедиться, что конфигурация в двух регионах синхронизирована, выполнив резервную копию из активного региона резервного копирования с восстановленным основным регионом, выполнив действия, описанные в разделе "Подготовка".
Кроме того, необходимо проверить и удалить все ресурсы в восстановленном регионе, который не был уничтожен на предыдущих шагах:
- Для каждого устройства Azure Stack Edge, перемещенного в регион резервного копирования (следуя инструкциям в восстановлении), необходимо найти и удалить старый ресурс кластера ARC. Идентификатор этого ресурса находится в поле packetCoreControlPlane.platform.customLocation из значений, резервных копии в подготовке. Состояние этого ресурса будет отключено , так как соответствующий кластер Kubernetes был удален в процессе восстановления.
- Для каждого ядра пакета, перемещенного в регион резервного копирования (следуя инструкциям в восстановлении), необходимо найти и удалить все объекты NFM в восстановленном регионе. Они будут перечислены в той же группе ресурсов, что и ресурсы уровня управления ядра пакетов, а значение региона будет соответствовать восстановленному региону.
Затем у вас есть два варианта для текущего управления:
- Используйте рабочий регион резервного копирования в качестве нового основного региона и используйте восстановленный регион в качестве резервной копии. В дальнейших действиях нет необходимости.
- Сделайте восстановленный регион новым активным основным регионом, следуя инструкциям в разделе "Перемещение ресурсов в другой регион", чтобы вернуться в восстановленный регион .
Тестирование
Если вы хотите протестировать планы аварийного восстановления, вы можете следовать процедуре восстановления для одного ядра пакетов в любое время. Обратите внимание, что это приведет к сбою службы ядра пакетов и прерыванию сетевого подключения к UEs до четырех часов, поэтому рекомендуется выполнять это только с непроизводственных развертываний ядра пакетов или в то время, когда сбой не повлияет на ваш бизнес.