Проектирование для восстановления

Завершено
Рабочая нагрузка должна иметь возможность предвидеть и восстанавливаться после большинства сбоев, из всех величин, с минимальным нарушением взаимодействия с пользователем и бизнес-целями.

Даже высоконадежные системы нуждаются в подходах к готовности к авариям как в архитектуре, так и в операциях проектирования архитектуры и рабочей нагрузки. На уровне данных должны быть стратегии, которые могут восстановить состояние рабочей нагрузки при повреждении.

Пример сценария

В настоящее время Компания Contoso размещает большое количество данных в локальной базе данных SQL Server и недавно модернизировала свое решение аналитики для данных со службами Azure.

Новое решение аналитики использует Службы Azure Analysis Services, Фабрика данных Azure, Azure Synapse Analytics, Power BI и Azure Виртуальные машины. Все пользователи решения являются внутренними. После рассмотрения требований к доступности решения команда решает реализовать решение в одном регионе.

Данные принимаются с помощью Фабрика данных Azure и обрабатываются перед сохранением в хранилище служб Analysis Services. Для части процесса требуется устаревший процесс windows, развернутый на виртуальной машине в облаке.

Быть готовым к авариям

Структурированные, тестируемые и документированные планы восстановления, которые соответствуют согласованным целевым объектам восстановления. Планы должны охватывать все компоненты в дополнение к системе в целом.

Хорошо определенный процесс приводит к быстрому восстановлению, что может предотвратить негативное влияние на финансы и репутацию вашего бизнеса. Выполнение регулярных детализаций восстановления проверяет процесс восстановления системных компонентов, данных и отработки отказа и восстановления размещения, чтобы избежать путаницы, когда время и целостность данных являются ключевыми мерами успеха.

Задача Компании Contoso

  • Решение используется только внутренне и не считается критически важным. Таким образом, группа рабочей нагрузки и заинтересованные лица бизнес-заинтересованных лиц согласны с тем, что перестроение решения в дополнительном регионе является достаточной моделью восстановления в маловероятном случае, если регион Azure, в котором он развернут, теряется или все решение становится недоступным по какой-либо другой причине.
  • Команда рабочей нагрузки описывает, как создать решение в другом регионе в своем плане аварийного восстановления, но еще не было возможности выполнить полную детализацию аварийного восстановления.

Применение подхода и результатов

  • После регионального сбоя группа реагирования на аварийное восстановление сможет выполнить инструкции плана аварийного восстановления для повторного развертывания решения аналитики в другом регионе.
  • Команда обнаруживает пробелы в планах аварийного восстановления для некоторых операций, необходимых для развертывания решения, и план обновляется, чтобы сделать восстановление более эффективным в будущем.
  • Группа рабочей нагрузки и заинтересованные лица согласны ускорить запланированное тестирование аварийного восстановления, чтобы обеспечить более эффективное восстановление.

Данные с отслеживанием состояния адреса

Убедитесь, что данные всех компонентов с отслеживанием состояния можно восстановить в целевых объектах восстановления.

Резервные копии необходимы для возврата системы в рабочее состояние с помощью доверенной точки восстановления, например последнего известного хорошего состояния.

Неизменяемые и согласованные с транзакцией резервные копии гарантируют, что данные не могут быть изменены, и что восстановленные данные не повреждены.

Задача Компании Contoso

  • Команда рабочей нагрузки решает переместить базы данных SQL в Azure, чтобы сократить время обработки аналитики. Одна из баз данных сильно используется во время процесса аналитики виртуальными машинами, поэтому команде необходимо убедиться, что состояние базы данных можно восстановить с наименьшим возможным RPO.

Применение подхода и результатов

  • Так как базы данных имеют более 4 ТБ, миграция на База данных SQL Azure не достижима в краткосрочной перспективе. Поэтому команда переносится на виртуальные машины Azure под управлением SQL Server 2022.
  • Команда решает использовать функцию автоматического резервного копирования для всех баз данных, включая критически важные, например те, которые используются виртуальными машинами.
  • Для критически важных баз данных команда планирует использовать функцию автоматического резервного копирования вместе с функцией связи Управляемый экземпляр для активной репликации баз данных в Управляемый экземпляр SQL Azure.

Реализация автоматизированных возможностей самовосстановления в проектировании

Возможности самостоятельного восстановления — это механизмы, позволяющие компонентам рабочей нагрузки автоматически устранять проблемы путем восстановления затронутых компонентов и при необходимости отработки отказа в избыточной инфраструктуре. Используйте шаблоны проектирования, чтобы добавить устойчивость к рабочей нагрузке с помощью механизмов самовосстановления.

Автоматизация самовосстановления помогает снизить риски от внешних факторов, таких как вмешательство человека, и сокращает цикл устранения перерыва.

Задача Компании Contoso

  • Процесс Windows, вызываемый из Фабрика данных Azure при первоначальном приеме данных, был развернут на нескольких виртуальных машинах для повышения доступности.
  • В некоторых случаях произошел сбой устаревшего процесса Windows, требующий перезагрузки виртуальной машины. Хотя общее время обработки было минимально затронуты (из-за уровня избыточности), команда хотела бы реализовать решение, которое автоматизирует обнаружение сбоя и восстановление.

Применение подхода и результатов

  • Команда решает реализовать решение масштабируемого набора виртуальных машин Azure, которое настроено для развертывания расширения работоспособности приложений для непрерывного мониторинга работоспособности процесса виртуальной машины.
  • С включенной функцией автоматического восстановления экземпляра масштабируемый набор теперь может восстановить компонент, перезагрузив виртуальную машину или создав новый экземпляр на основе того же образа.

Проверьте свои знания

1.

Какой из следующих примеров является примером метрик, которые помогают управлять планами аварийного восстановления?

2.

Какой из следующих сценариев является примером того, как справиться с данными с отслеживанием состояния для целей восстановления?

3.

Компания Contoso имеет критически важное бизнес-приложение в Azure. Что такое один из способов реализации самовосстановления для повышения надежности своего приложения?