Аварийное восстановление с поддержкой клиента
Внимание
Элементы, обозначенные в этой статье как (предварительная версия), сейчас предлагаются в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
Чтобы максимально повысить время работы, спланируйте перед тем, чтобы обеспечить непрерывность бизнес-процессов и подготовиться к аварийному восстановлению с помощью Azure AI Foundry. Так как Azure AI Foundry основывается на архитектуре Машинное обучение Azure, полезно ссылаться на базовую архитектуру.
Корпорация Майкрософт стремится непрерывно поддерживать доступность служб Azure. Однако могут возникнуть незапланированные сбои служб. Мы рекомендуем иметь план аварийного восстановления на случай регионального сбоя служб. Вы узнаете, как выполнять следующие задачи:
- Планирование многорегионного развертывания Azure AI Foundry и связанных ресурсов.
- Максимальное увеличение шансов на восстановление журналов, записных книжек, образов Docker и других метаданных.
- Обеспечение высокого уровня доступности при проектировании решения.
- Инициация отработки отказа в другой регион.
Внимание
Сам Azure AI Foundry не обеспечивает автоматическую отработку отказа или аварийное восстановление.
Общие сведения о службах Azure для Azure AI Foundry
Azure AI Foundry зависит от нескольких служб Azure. Некоторые из этих служб подготавливаются в вашей подписке. Вы несете ответственность за настройку высокого уровня доступности этих служб. Корпорация Майкрософт управляет некоторыми службами, созданными в подписке Майкрософт.
К службам Azure относятся следующие:
Инфраструктура Azure AI Foundry: управляемая корпорацией Майкрософт среда для Центра и проекта Azure Ai Foundry. [базовая архитектура](документация по архитектуре Azure AI Foundry) предоставляется Машинное обучение Azure.
Необходимые связанные ресурсы: ресурсы, подготовленные в подписке во время создания центра ИИ Azure ИИ и создания проекта. К этим ресурсам относятся служба хранилища Azure и Azure Key Vault.
- Хранилище по умолчанию содержит такие данные, как модель, данные журнала обучения и ссылки на ресурсы данных.
- Key Vault имеет учетные данные для служба хранилища Azure и подключений.
Необязательные связанные ресурсы: ресурсы, которые можно присоединить к центру Azure AI Foundry. К этим ресурсам относятся Реестр контейнеров Azure и Application Insights.
- Реестр контейнеров содержит образ Docker для сред обучения и вывода.
- Application Insights предназначен для мониторинга Azure AI Foundry.
Вычислительный экземпляр: ресурс, создаваемый после развертывания концентратора. Среды разработки моделей, управляемые корпорацией Майкрософт.
Подключения: Azure AI Foundry может подключаться к различным другим службам. Вы несете ответственность за совместное определение параметров высокой доступности.
В следующей таблице показаны службы Azure, которыми управляет корпорация Майкрософт и которыми вы управляете. В ней также указаны службы, которые по умолчанию имеют высокую доступность.
Service | Управляется | Высокий уровень доступности по умолчанию |
---|---|---|
Инфраструктура Azure AI Foundry | Microsoft | |
Связанные ресурсы | ||
Хранилище Azure | Вы | |
Key Vault | Вы | ✓ |
Реестр контейнеров | Вы | |
Application Insights | Вы | Неприменимо |
вычислительные ресурсы; | ||
Вычислительная операция | Microsoft | |
Любое подключение к внешним службам, таким как Службы искусственного интеллекта Azure | Вы |
Оставшаяся часть этой статьи описывает действия, которые нужно выполнить для обеспечения высокой доступности каждой из этих служб.
Планирование развертывания в нескольких регионах
Многорегиональная развертывание зависит от создания Azure AI Foundry и других ресурсов (инфраструктуры) в двух регионах Azure. В случае регионального сбоя можно переключиться на другой регион. При планировании места для развертывания ресурсов следует учитывать следующее.
Региональная доступность: если это возможно, используйте регион в той же географической области, а не обязательно ближайший. Сведения о региональной доступности для Azure AI Foundry см. в продуктах Azure по регионам.
Парные регионы Azure: парные регионы при необходимости координируют обновления платформы и устанавливают приоритетность действий по восстановлению. Однако не все регионы поддерживают парные регионы. Дополнительные сведения см. в статье Непрерывность бизнес-процессов и аварийное восстановление в службах BizTalk: пары регионов Azure.
Доступность службы: определите, должны ли ресурсы, используемые вашим решением, иметь конфигурацию горячий/горячий, горячий/теплый или горячий/холодный.
- Горячий/горячий: оба региона активны одновременно, и один регион готов приступить к работе немедленно.
- Горячий/теплый: основной регион активен, дополнительный регион содержит критически важные ресурсы (например, развернутые модели), готовые к работе. Некритические ресурсы должны быть вручную развернуты в дополнительном регионе.
- Горячий и холодный: основной регион активен, вторичный регион содержит Azure AI Foundry и другие ресурсы, развернутые вместе с необходимыми данными. Такие ресурсы, как модели, развертывания моделей или конвейеры, потребуется развернуть вручную.
Совет
В зависимости от бизнес-требований вы можете решить, как обрабатывать различные ресурсы Azure AI Foundry по-разному.
Azure AI Foundry строится на основе других служб. Некоторые службы можно настроить для репликации в другие регионы. Другие необходимо вручную создать в нескольких регионах. Следующая таблица содержит список служб, ответственных за репликацию, а также общие сведения о конфигурации:
Служба Azure | Кто осуществляет георепликацию | Настройка |
---|---|---|
Центр и проекты Azure AI Foundry | Вы | Создайте концентратор или проекты в выбранных регионах. |
Вычисление Azure AI Foundry | Вы | Создайте вычислительные ресурсы в выбранных регионах. Для вычислительных ресурсов, которые могут динамически масштабироваться, убедитесь, что оба региона обеспечивают достаточную для ваших потребностей квоту вычислений. |
Key Vault | Microsoft | Используйте один и тот же экземпляр Key Vault с центром Azure AI Foundry и ресурсами в обоих регионах. Key Vault автоматически выполняет отработку отказа в дополнительный регион. Дополнительные сведения см. в статье Доступность и избыточность хранилища ключей Azure. |
Учетная запись хранения | Вы | Машинное обучение Azure не поддерживает отработку отказа учетной записи хранения по умолчанию с помощью геоизбыточного хранилища (GRS), геоизбыточного хранилища (GZRS), геоизбыточного хранилища для чтения (RA-GRS) или геоизбыточного хранилища с доступом для чтения (RA-GZRS). Настройте учетную запись хранения в соответствии с вашими потребностями и используйте ее для центра. Все последующие проекты используют учетную запись хранения центра. Дополнительные сведения см. в статье Репликация службы хранилища Azure. |
Реестр контейнеров | Microsoft | Настройте экземпляр реестра контейнеров для геореплицированных реестров в парном регионе для Azure AI Foundry. Используйте один и тот же экземпляр для обоих экземпляров концентратора. Дополнительные сведения см. в статье Георепликация в Реестре контейнеров Azure. |
Application Insights | Вы | Создайте Application Insights для концентратора в обоих регионах. Сведения об изменении периода хранения данных и сведений см. в разделе Сбор и хранение данных в Application Insights. |
Для обеспечения быстрого восстановления и перезапуска в дополнительном регионе рекомендуется применять следующие методики разработки.
- Используйте шаблоны Azure Resource Manager. Шаблоны — это "инфраструктура как код" и позволяют быстро развертывать службы в обоих регионах.
- Чтобы избежать смещения между двумя регионами, обновите конвейеры непрерывной интеграции и развертывания для развертывания в обоих регионах.
- Создайте назначения ролей для пользователей в обоих регионах.
- Создайте сетевые ресурсы, такие как виртуальные сети Azure и частные конечные точки, для обоих регионов. Убедитесь, что у пользователей есть доступ к обеим сетевым средам. Например, конфигурации VPN и DNS для обеих виртуальных сетей.
Учет высокого уровня доступности при проектировании
Зоны доступности
Некоторые службы Azure поддерживают зоны доступности. Для регионов, поддерживающих зоны доступности, если зона будет приостановлена, а данные должны быть сохранены. Однако данные недоступны для обновления до тех пор, пока зона не будет подключена к сети.
Дополнительные сведения см. в разделе "Поддержка службы зоны доступности".
Развертывание критически важных компонентов в нескольких регионах
Определите уровень непрерывности бизнес-процессов, на который вы стремитесь. Уровень может отличаться между компонентами решения. Например, может потребоваться горячая и горячая конфигурация для рабочих конвейеров или развертываний моделей, а также горячая/холодная для разработки.
Azure AI Foundry — это региональная служба и хранит данные как на стороне службы, так и в учетной записи хранения в вашей подписке. Если происходит региональное бедствие, данные службы не могут быть восстановлены. Но вы можете восстановить данные, хранящиеся службой в учетной записи хранения в вашей подписке, учитывая избыточность хранилища. Хранимые данные на стороне службы в основном являются метаданными (теги, имена активов, описания). Хранящиеся в учетной записи хранения обычно не метаданные, например отправленные данные.
Для подключений рекомендуется создать два отдельных ресурса в двух разных регионах, а затем создать два подключения для концентратора. Например, если службы ИИ являются критически важным ресурсом для обеспечения непрерывности бизнес-процессов, создание двух ресурсов служб ИИ и двух подключений к центру будет хорошей стратегией обеспечения непрерывности бизнес-процессов. Если в одном регионе по-прежнему работает один регион.
Для всех центров, необходимых для обеспечения непрерывности бизнес-процессов, разверните ресурсы в двух регионах.
Изолированное хранилище
В сценарии, в котором вы подключаетесь к данным для настройки приложения ИИ, обычно ваши наборы данных могут использоваться в Azure AI, но и за пределами Azure AI. Объем набора данных может быть довольно большим, поэтому для этого рекомендуется хранить эти данные в отдельной учетной записи хранения. Оцените, какую стратегию репликации данных лучше всего подходит для вашего варианта использования.
На портале Azure AI Foundry сделайте подключение к данным. Если у вас несколько экземпляров Azure AI Foundry в разных регионах, возможно, вы по-прежнему указываете на одну учетную запись хранения, так как подключения работают между регионами.
Запуск отработки отказа
Продолжить работу в концентраторе отработки отказа
Когда основной концентратор становится недоступным, вы можете переключиться на дополнительный концентратор, чтобы продолжить разработку. Azure AI Foundry не автоматически отправляет задания в дополнительный центр, если произошел сбой. Обновите конфигурацию кода, чтобы указать на новые ресурсы концентратора или проекта. Рекомендуется избежать жесткой кодировки или ссылок на проекты.
Azure AI Foundry не может синхронизировать или восстанавливать артефакты или метаданные между центрами. В зависимости от стратегии развертывания приложения может потребоваться переместить или повторно создать артефакты в концентраторе отработки отказа, чтобы продолжить работу. Если вы настроите основной концентратор и дополнительный концентратор для совместного использования связанных ресурсов с поддержкой георепликации, некоторые объекты могут быть доступны непосредственно в концентраторе отработки отказа. Например, если оба центра совместно используют одинаковые образы Docker, настроенные хранилища данных и ресурсы Azure Key Vault.
Примечание.
Все задания, выполняемые при сбое службы, не будут автоматически переходить в дополнительный концентратор. Кроме того, маловероятно, что задания будут возобновляться и завершать работу в основном концентраторе после устранения сбоя. Вместо этого эти задания должны быть повторно отправляемы либо в дополнительном концентраторе, либо в основном (после разрешения сбоя).
Варианты восстановления
Удаление ресурсов
Если концентратор и существующие ресурсы случайно удалены, существуют некоторые ресурсы с включенным обратимым удалением, что позволяет восстановить ресурсы. Центры и проекты не поддерживают обратимое удаление. Не удается восстановить концентратор или проект, удаленный. Некоторые базовые ресурсы могут поддерживать обратимое удаление, чтобы они могли быть восстановлены. См. таблицу, для которой службы имеют параметр обратимого удаления.
Service | обратимое удаление включено |
---|---|
Центр Azure AI Foundry | Не поддерживается |
Проект Azure AI Foundry | Не поддерживается |
Ресурс Служб искусственного интеллекта Azure | Да |
Хранилище Azure | См. статью "Восстановление удаленной учетной записи хранения". |
Azure Key Vault | Да |
Следующие шаги
- Сведения о безопасных развертываниях инфраструктуры с помощью Azure AI Foundry см. в статье "Создание безопасного концентратора".
- Сведения об уровне обслуживания см . в соглашениях об уровне обслуживания Azure.