Проектирование для восстановления
Рабочая нагрузка должна иметь возможность предвидеть и восстанавливаться после большинства сбоев, из всех величин, с минимальным нарушением взаимодействия с пользователем и бизнес-целями. |
---|
Даже высоконадежные системы нуждаются в подходах к готовности к авариям как в архитектуре, так и в операциях проектирования архитектуры и рабочей нагрузки. На уровне данных должны быть стратегии, которые могут восстановить состояние рабочей нагрузки при повреждении.
Пример сценария
В настоящее время Компания Contoso размещает большое количество данных в локальной базе данных SQL Server и недавно модернизировала свое решение аналитики для данных со службами Azure.
Новое решение аналитики использует Службы Azure Analysis Services, Фабрика данных Azure, Azure Synapse Analytics, Power BI и Azure Виртуальные машины. Все пользователи решения являются внутренними. После рассмотрения требований к доступности решения команда решает реализовать решение в одном регионе.
Данные принимаются с помощью Фабрика данных Azure и обрабатываются перед сохранением в хранилище служб Analysis Services. Для части процесса требуется устаревший процесс windows, развернутый на виртуальной машине в облаке.
Быть готовым к авариям
Структурированные, тестируемые и документированные планы восстановления, которые соответствуют согласованным целевым объектам восстановления. Планы должны охватывать все компоненты в дополнение к системе в целом.
Хорошо определенный процесс приводит к быстрому восстановлению, что может предотвратить негативное влияние на финансы и репутацию вашего бизнеса. Выполнение регулярных детализаций восстановления проверяет процесс восстановления системных компонентов, данных и отработки отказа и восстановления размещения, чтобы избежать путаницы, когда время и целостность данных являются ключевыми мерами успеха.
Задача Компании Contoso
- Решение используется только внутренне и не считается критически важным. Таким образом, группа рабочей нагрузки и заинтересованные лица бизнес-заинтересованных лиц согласны с тем, что перестроение решения в дополнительном регионе является достаточной моделью восстановления в маловероятном случае, если регион Azure, в котором он развернут, теряется или все решение становится недоступным по какой-либо другой причине.
- Команда рабочей нагрузки описывает, как создать решение в другом регионе в своем плане аварийного восстановления, но еще не было возможности выполнить полную детализацию аварийного восстановления.
Применение подхода и результатов
- После регионального сбоя группа реагирования на аварийное восстановление сможет выполнить инструкции плана аварийного восстановления для повторного развертывания решения аналитики в другом регионе.
- Команда обнаруживает пробелы в планах аварийного восстановления для некоторых операций, необходимых для развертывания решения, и план обновляется, чтобы сделать восстановление более эффективным в будущем.
- Группа рабочей нагрузки и заинтересованные лица согласны ускорить запланированное тестирование аварийного восстановления, чтобы обеспечить более эффективное восстановление.
Данные с отслеживанием состояния адреса
Убедитесь, что данные всех компонентов с отслеживанием состояния можно восстановить в целевых объектах восстановления.
Резервные копии необходимы для возврата системы в рабочее состояние с помощью доверенной точки восстановления, например последнего известного хорошего состояния.
Неизменяемые и согласованные с транзакцией резервные копии гарантируют, что данные не могут быть изменены, и что восстановленные данные не повреждены.
Задача Компании Contoso
- Команда рабочей нагрузки решает переместить базы данных SQL в Azure, чтобы сократить время обработки аналитики. Одна из баз данных сильно используется во время процесса аналитики виртуальными машинами, поэтому команде необходимо убедиться, что состояние базы данных можно восстановить с наименьшим возможным RPO.
Применение подхода и результатов
- Так как базы данных имеют более 4 ТБ, миграция на База данных SQL Azure не достижима в краткосрочной перспективе. Поэтому команда переносится на виртуальные машины Azure под управлением SQL Server 2022.
- Команда решает использовать функцию автоматического резервного копирования для всех баз данных, включая критически важные, например те, которые используются виртуальными машинами.
- Для критически важных баз данных команда планирует использовать функцию автоматического резервного копирования вместе с функцией связи Управляемый экземпляр для активной репликации баз данных в Управляемый экземпляр SQL Azure.
Реализация автоматизированных возможностей самовосстановления в проектировании
Возможности самостоятельного восстановления — это механизмы, позволяющие компонентам рабочей нагрузки автоматически устранять проблемы путем восстановления затронутых компонентов и при необходимости отработки отказа в избыточной инфраструктуре. Используйте шаблоны проектирования, чтобы добавить устойчивость к рабочей нагрузке с помощью механизмов самовосстановления.
Автоматизация самовосстановления помогает снизить риски от внешних факторов, таких как вмешательство человека, и сокращает цикл устранения перерыва.
Задача Компании Contoso
- Процесс Windows, вызываемый из Фабрика данных Azure при первоначальном приеме данных, был развернут на нескольких виртуальных машинах для повышения доступности.
- В некоторых случаях произошел сбой устаревшего процесса Windows, требующий перезагрузки виртуальной машины. Хотя общее время обработки было минимально затронуты (из-за уровня избыточности), команда хотела бы реализовать решение, которое автоматизирует обнаружение сбоя и восстановление.
Применение подхода и результатов
- Команда решает реализовать решение масштабируемого набора виртуальных машин Azure, которое настроено для развертывания расширения работоспособности приложений для непрерывного мониторинга работоспособности процесса виртуальной машины.
- С включенной функцией автоматического восстановления экземпляра масштабируемый набор теперь может восстановить компонент, перезагрузив виртуальную машину или создав новый экземпляр на основе того же образа.