Аварийное восстановление с помощью средства создания моментальных снимков с согласованием для приложений Azure

Статья
06/01/2023

В этой статье объясняется, как выполнить аварийное восстановление при использовании средства создания моментальных снимков с согласованием для приложений Azure, которое можно использовать с Azure NetApp Files.

Внимание

Эта операция применяется только к крупному экземпляру Azure.

Введение

На платформе крупных экземпляров Azure также может иметься сайт аварийного восстановления, настроенный в том месте, куда можно реплицировать моментальные снимки тома хранилища. Если моментальные снимки настроены правильно с помощью данной процедуры, можно выполнить аварийное восстановление на этом сайте. Этот документ разработан в качестве руководства по выполнению аварийного восстановления для этой процедуры настройки.

Необходимые условия для настройки аварийного восстановления

Перед планированием отработки отказа аварийного восстановления должны быть выполнены следующие предварительные требования.

У вас есть узел аварийного восстановления, подготовленный на сайте аварийного восстановления. Имеются два варианта аварийного восстановления. Один из них — обычное, а другой — многоцелевое.
Репликация хранилища работает. Команда Microsoft Operations автоматически выполняет настройку репликации хранилища во время подготовки аварийного восстановления. Вы можете отслеживать репликацию хранилища с помощью команды azacsnap -c details --details replication на сайте аварийного восстановления.
Вы подготовили и настроили моментальные снимки хранилища в основном расположении.
У вас есть экземпляр HANA, установленный на сайте аварийного восстановления для основного экземпляра с тем же идентификатором безопасности, что и у основного экземпляра.
Вы прочли и поняли процедуру отработки отказа аварийного восстановления, описанную в статье Крупные экземпляры SAP HANA: высокий уровень доступности и аварийное восстановление на Azure.
Вы подготовили и настроили моментальные снимки хранилища в расположении аварийного восстановления.
Файл конфигурации (например, DR.json) был создан с томами хранилища аварийного восстановления и связанными сведениями на сервере аварийного восстановления.
Вы выполнили действия на сайте аварийного восстановления, чтобы:
- Обеспечьте обмен данными с хранилищем.
- Обеспечить обмен данными с SAP HANA.

Настройка аварийного восстановления

Корпорация Майкрософт поддерживает репликацию на уровне хранилища для аварийного восстановления. Настроить аварийное восстановление можно двумя способами.

Одна из них — обычное, а другое — многоцелевое. При обычном аварийном восстановлении у вас есть выделенный экземпляр в расположении аварийного восстановления для отработки отказа. В сценарии с многоцелевым аварийным восстановлением у вас есть еще один экземпляр HANA для контроля качества или разработки, запущенный на крупном экземпляре HANA на сайте аварийного восстановления. Но вы также установили предварительно установленный экземпляр HANA, который находится в неактивном состоянии и имеет тот же идентификатор безопасности, что и экземпляр HANA, для которого требуется выполнить отработку отказа на крупный экземпляр HANA. Microsoft Operations настраивает среду для вас, включая репликацию хранилища на основе входных данных, указанных в форме запроса на обслуживание (SRF) во время подключения.

Внимание

Убедитесь, что выполнены все необходимые условия для настройки аварийного восстановления.

Мониторинг репликации данных с первичного сайта на сайт аварийного восстановления

Команда Microsoft Operations уже управляет каналом аварийного восстановления с первичного сайта на сайт аварийного восстановления и отслеживает его. Вы можете отслеживать репликацию данных с сервера-источника на сервер аварийного восстановления с помощью команды создания моментальных снимков azacsnap -c details --details replication.

Отработка отказа на сайт аварийного восстановления

Выполните команду отработки отказа на сайте аварийного восстановления (azacsnap -c restore --restore revertvolume).

Внимание

Команда azacsnap -c restore --restore revertvolume прерывает репликацию хранилища с рабочего сайта на сайт аварийного восстановления. Для повторной настройки репликации необходимо обратиться в Microsoft Operations. После повторного включения репликации все данные в хранилище аварийного восстановления для этого идентификатора безопасности будут инициализированы. Команда, выполняющая отработку отказа, предоставляет доступ к последнему реплицированному моментальному снимку хранилища. Если необходимо восстановить старую версию моментального снимка, отправьте запрос в службу поддержки, чтобы команда Operations могла предоставить более ранний моментальный снимок, восстановленный на сайте аварийного восстановления.

На высоком уровне следует выполнить шаги ниже для отработки отказа аварийного восстановления.

Необходимо завершить работу экземпляра HANA на основном сайте. Это действие требуется только в том случае, если вы действительно выполняете отработку отказа на сайт аварийного восстановления, т. е. несогласованность данных отсутствует.
Завершите работу экземпляра HANA на узле аварийного восстановления для рабочего идентификатора безопасности.
Выполните команду azacsnap -c restore --restore revertvolume на узле аварийного восстановления с идентификатором безопасности для восстановления.
- Команда закрывает канал репликации хранилища с основного сайта на сайт аварийного восстановления.
- Команда восстанавливает только тома /data и /logbackups, том /shared НЕ восстанавливается, а вместо него использует существующий том /shared для идентификатора безопасности в расположении аварийного восстановления.
- Подключение томов /data и /logbackups — обязательно добавьте их в файл fstab.
Восстановите моментальный снимок HANA SYSTEMDB. HANA Studio показывает только последний моментальный снимок HANA, доступный в моментальном снимке хранилища, который был восстановлен в ходе выполнения команды azacsnap -c restore --restore revertvolume.
Восстановите базу данных клиента.
Запустите экземпляр HANA на сайте аварийного восстановления для рабочего идентификатора безопасности (например, в этом случае — H80).
Выполните тестирование.

Пример выполнения аварийного восстановления

В этом подразделе описаны подробные инструкции по отработке отказа на сайт аварийного восстановления.

Шаг 1. Получение сведений о томе для узла аварийного восстановления

Выполните команду df –h, чтобы получить список файловых систем и связанных томов, на которые следует ссылаться после отработки отказа.

df -h

Filesystem Size Used Avail Use% Mounted on
devtmpfs 378G 8.0K 378G 1% /dev
tmpfs 569G 0 569G 0%
/dev/shm
tmpfs 378G 18M 378G 1% /run
tmpfs 378G 0 378G 0%
/sys/fs/cgroup
/dev/mapper/3600a098038304445622b4b584c575a66-part2 47G 20G 28G 42% /
/dev/mapper/3600a098038304445622b4b584c575a66-part1 979M 57M 856M 7% /boot
172.18.20.241:/hana_log_h80_mnt00003_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00001_t020_vol 512G 5.5G 507G 2% /hana/log/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00003_t020_vol 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00002_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00002_t020_vol 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00001_t020_vol 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_shared_h80_t020_vol/usr_sap_node1 2.7T 11G 2.7T 1% /usr/sap/H80
tmpfs 76G 0 76G 0% /run/user/0
172.18.20.241:/hana_shared_h80_t020_vol 2.7T 11G 2.7T 1% /hana/shared
172.18.20.241:/hana_data_h80_mnt00001_t020_xdp 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00002_t020_xdp 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00003_t020_xdp 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_backups_h80_t020_xdp 512G 15G 498G 3% /hana/logbackups/H80_T250

Шаг 2. Завершение работы HANA на основном сайте

Если выполняется полная отработка отказа рабочих нагрузок рабочей нагрузки и можно подключиться к основному рабочему сайту, то завершите работу экземпляров SAP HANA, которые отправляются на сайт аварийного восстановления.

Например, в следующем примере показано, как можно завершить работу SAP HANA, если войти в качестве привилегированного пользователя. Замените <идентификатор безопасности> SAP HANA.

su - <sid>adm
HDB stop

Шаг 3. Завершение работы HANA на сайте аварийного восстановления

Прежде чем восстанавливать тома, важно завершить работу SAP HANA на сайте аварийного восстановления.

su - <sid>adm
HDB stop

Внимание

Перед восстановлением томов убедитесь, что экземпляры HANA на сайте аварийного восстановления отключены.

Шаг 4. Восстановление томов

azacsnap -c restore --restore revertvolume --dbsid H80

Выходные данные команды отработки отказа аварийного восстановления.

azacsnap --configfile DR.json -c restore --restore revertvolume --dbsid H80

* This program is designed for those customers who have previously installed the
  Production HANA instance in the Disaster Recovery Location either as a
  stand-alone instance or as part of a multi-purpose environment.
* This program should be executed from the Disaster Recovery location otherwise
  unintended consequences may result.
* This program is intended to allow the customer to complete a Disaster Recovery
  failover.
* Any other restore points must be handled by Microsoft Operations.
* All volumes ('data' and 'other') are reverted to their most recent snapshot.
* The SnapMirror replication relationship between Prod and DR will be broken.

  CAUTION: a failback will be required after running this command and failback
   might not be a quick process and will require multiple steps in coordination
   with Microsoft Operations.

Do you wish to continue? (y/n) [n]: y
Checking state of HLI volumes for SID 'H80'
Configured volumes (Data and Other) are not quiesced for revert, will retry in 00:00:10 seconds
Volumes All Ok to Revert = True
Reverting volume 'hana_data_h80_mnt00001_t020_xdp' to snapshot 'H80_HANA_DATA_30MIN.2020-09-16_0330.0'
DR.json Data Volume #1 'hana_data_h80_mnt00001_t020_xdp' assigning to mountpoint 'mnt00001'
Reverting volume 'hana_log_backups_h80_t020_xdp01' to snapshot 'H80_HANA_LOGS_3MIN_X9.2020-09-16_0339.recent'
DR.json Other Volume #1 'hana_log_backups_h80_t020_xdp01' assigning to mountpoint '01'
HLI Volume revert completed for SID 'H80'
Displaying Mount Points by Volume as follows:
10.50.251.34:/hana_data_h80_mnt00001_t020_xdp  /hana/data/H80/mnt00001 nfs  rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
10.50.251.36:/hana_log_backups_h80_t020_xdp01  /hana/log_backups/H80/01 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
*********************  HANA DR Restore Steps  **********************************
* Please complete the following steps to recover your HANA database:           *
* 1. Ensure ALL the target mount points exist to mount the snapshot clones.    *
*    e.g. mkdir /hana/logbackups/H99_SOURCE                                    *
* 2. Add Mount Point Details from 'Displaying Mount Points by Volume' as       *
*    output above into /etc/fstab of DR Server.                                *
* 3. Mount newly added filesystems.                                            *
* 4. Perform HANA Snapshot Recovery using HANA Studio.                         *
********************************************************************************

Примечание.

Чтобы завершить подготовку хранилища для отработки отказа аварийного восстановления, необходимо выполнить действия в конце окна консоли.

Шаг 5. Отключение ненужных файловых систем

Выполните команду umount, чтобы отключить ненужные файловые системы или тома.

umount <Mount point>

Отключите точки подключения резервного копирования данных и журналов. В сценарии горизонтального масштабирования может быть несколько точке подключения к данным.

Шаг 6. Настройка точек подключения

Измените файл /etc/fstab, чтобы закомментировать записи и резервные копии журналов основного идентификатора безопасности (в этом примере это SID = H80) и добавить новые записи точек подключения, созданные на основе томов аварийного восстановления основного сайта. Новые записи точек подключения приведены в выходных данных команды.

Закомментируйте существующие точки подключения, работающие на сайте аварийного восстановления, с помощью символа #:

#172.18.20.241:/hana_data_h80_mnt00001_t020_vol /hana/data/H80/mnt00001 nfs     rw,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
#172.18.20.241:/hana_log_backups_h80_t020 /hana/logbackups/H80 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0

Добавьте следующие строки в /etc/fstab

это должны быть те же выходные данные команды

10.50.251.34:/hana_data_h80_mnt00001_t020_xdp  /hana/data/H80/mnt00001 nfs  rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
10.50.251.36:/hana_log_backups_h80_t020_xdp01  /hana/log_backups/H80/01 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0

Шаг 7. Подключение томов восстановления

Выполните команду mount –a, чтобы подключить все точки подключения.

mount -a

Теперь при выполнении df –h вы должны увидеть подключенные тома *_dp.

df -h

Filesystem Size Used Avail Use% Mounted on
devtmpfs 378G 8.0K 378G 1% /dev
tmpfs 569G 0 569G 0% /dev/shm
tmpfs 378G 18M 378G 1% /run
tmpfs 378G 0 378G 0% /sys/fs/cgroup
/dev/mapper/3600a098038304445622b4b584c575a66-part2 47G 20G 28G 42% /
/dev/mapper/3600a098038304445622b4b584c575a66-part1 979M 57M 856M 7% /boot
172.18.20.241:/hana_log_h80_mnt00003_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00001_t020_vol 512G 5.5G 507G 2% /hana/log/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00003_t020_vol 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00002_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00002_t020_vol 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00001_t020_vol 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_shared_h80_t020_vol/usr_sap_node1 2.7T 11G 2.7T 1% /usr/sap/H80
tmpfs 76G 0 76G 0% /run/user/0
172.18.20.241:/hana_shared_h80_t020_vol 2.7T 11G 2.7T 1% /hana/shared
172.18.20.241:/hana_data_h80_mnt00001_t020_xdp 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00002_t020_xdp 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00003_t020_xdp 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_backups_h80_t020_xdp 512G 15G 498G 3% /hana/logbackups/H80_T250

Шаг 8. Восстановление SYSTEMDB

В HANA Studio щелкните правой кнопкой мыши экземпляр SYSTEMDB и выберите пункт "Резервное копирование и восстановление", а затем "Восстановить системную базу данных".

Ознакомьтесь с руководством по восстановлению базы данных из моментального снимка, в частности SYSTEMDB.

Шаг 9. Восстановление базы данных клиента

В HANA Studio щелкните правой кнопкой мыши экземпляр SYSTEMDB и выберите пункт "Резервное копирование и восстановление", а затем "Восстановить базу данных клиента".

Ознакомьтесь с руководством по восстановлению базы данных из моментального снимка, в частности баз данных клиента.

Выполнение `azacsnap -c backup` на сайте аварийного восстановления

Если на сайте аварийного восстановления выполняются резервные копии на основе моментальных снимков, то имя сервера HANA, настроенное в файле конфигурации azacsnap на сайте аварийного восстановления, должно совпадать с именем рабочего сервера.

Внимание

При запуске azacsnap -c backup можно создавать моментальные снимки хранилища на сайте аварийного восстановления, которые не реплицируются автоматически на другой сайт. Необходимо взаимодействие с Microsoft Operations для лучшего понимания процедуры возврата файлов и данных на исходный рабочий сайт.

Поделиться через

Аварийное восстановление с помощью средства создания моментальных снимков с согласованием для приложений Azure

Введение

Необходимые условия для настройки аварийного восстановления

Настройка аварийного восстановления

Мониторинг репликации данных с первичного сайта на сайт аварийного восстановления

Отработка отказа на сайт аварийного восстановления

Пример выполнения аварийного восстановления

Шаг 1. Получение сведений о томе для узла аварийного восстановления

Шаг 2. Завершение работы HANA на основном сайте

Шаг 3. Завершение работы HANA на сайте аварийного восстановления

Шаг 4. Восстановление томов

Шаг 5. Отключение ненужных файловых систем

Шаг 6. Настройка точек подключения

Шаг 7. Подключение томов восстановления

Шаг 8. Восстановление SYSTEMDB

Шаг 9. Восстановление базы данных клиента

Выполнение `azacsnap -c backup` на сайте аварийного восстановления

Следующие шаги

Обратная связь

Дополнительные ресурсы

Поделиться через

Аварийное восстановление с помощью средства создания моментальных снимков с согласованием для приложений Azure

Введение

Необходимые условия для настройки аварийного восстановления

Настройка аварийного восстановления

Мониторинг репликации данных с первичного сайта на сайт аварийного восстановления

Отработка отказа на сайт аварийного восстановления

Пример выполнения аварийного восстановления

Шаг 1. Получение сведений о томе для узла аварийного восстановления

Шаг 2. Завершение работы HANA на основном сайте

Шаг 3. Завершение работы HANA на сайте аварийного восстановления

Шаг 4. Восстановление томов

Шаг 5. Отключение ненужных файловых систем

Шаг 6. Настройка точек подключения

Шаг 7. Подключение томов восстановления

Шаг 8. Восстановление SYSTEMDB

Шаг 9. Восстановление базы данных клиента

Выполнение azacsnap -c backup на сайте аварийного восстановления

Следующие шаги

Обратная связь

Дополнительные ресурсы

Выполнение `azacsnap -c backup` на сайте аварийного восстановления