Поделиться через


Аварийное восстановление с помощью средства создания моментальных снимков с согласованием для приложений Azure

В этой статье объясняется, как выполнить аварийное восстановление при использовании средства создания моментальных снимков с согласованием для приложений Azure, которое можно использовать с Azure NetApp Files.

Внимание

Эта операция применяется только к крупному экземпляру Azure.

Введение

На платформе крупных экземпляров Azure также может иметься сайт аварийного восстановления, настроенный в том месте, куда можно реплицировать моментальные снимки тома хранилища. Если моментальные снимки настроены правильно с помощью данной процедуры, можно выполнить аварийное восстановление на этом сайте. Этот документ разработан в качестве руководства по выполнению аварийного восстановления для этой процедуры настройки.

Необходимые условия для настройки аварийного восстановления

Перед планированием отработки отказа аварийного восстановления должны быть выполнены следующие предварительные требования.

  • У вас есть узел аварийного восстановления, подготовленный на сайте аварийного восстановления. Имеются два варианта аварийного восстановления. Один из них — обычное, а другой — многоцелевое.
  • Репликация хранилища работает. Команда Microsoft Operations автоматически выполняет настройку репликации хранилища во время подготовки аварийного восстановления. Вы можете отслеживать репликацию хранилища с помощью команды azacsnap -c details --details replication на сайте аварийного восстановления.
  • Вы подготовили и настроили моментальные снимки хранилища в основном расположении.
  • У вас есть экземпляр HANA, установленный на сайте аварийного восстановления для основного экземпляра с тем же идентификатором безопасности, что и у основного экземпляра.
  • Вы прочли и поняли процедуру отработки отказа аварийного восстановления, описанную в статье Крупные экземпляры SAP HANA: высокий уровень доступности и аварийное восстановление на Azure.
  • Вы подготовили и настроили моментальные снимки хранилища в расположении аварийного восстановления.
  • Файл конфигурации (например, DR.json) был создан с томами хранилища аварийного восстановления и связанными сведениями на сервере аварийного восстановления.
  • Вы выполнили действия на сайте аварийного восстановления, чтобы:
    • Обеспечьте обмен данными с хранилищем.
    • Обеспечить обмен данными с SAP HANA.

Настройка аварийного восстановления

Корпорация Майкрософт поддерживает репликацию на уровне хранилища для аварийного восстановления. Настроить аварийное восстановление можно двумя способами.

Одна из них — обычное, а другое — многоцелевое. При обычном аварийном восстановлении у вас есть выделенный экземпляр в расположении аварийного восстановления для отработки отказа. В сценарии с многоцелевым аварийным восстановлением у вас есть еще один экземпляр HANA для контроля качества или разработки, запущенный на крупном экземпляре HANA на сайте аварийного восстановления. Но вы также установили предварительно установленный экземпляр HANA, который находится в неактивном состоянии и имеет тот же идентификатор безопасности, что и экземпляр HANA, для которого требуется выполнить отработку отказа на крупный экземпляр HANA. Microsoft Operations настраивает среду для вас, включая репликацию хранилища на основе входных данных, указанных в форме запроса на обслуживание (SRF) во время подключения.

Внимание

Убедитесь, что выполнены все необходимые условия для настройки аварийного восстановления.

Мониторинг репликации данных с первичного сайта на сайт аварийного восстановления

Команда Microsoft Operations уже управляет каналом аварийного восстановления с первичного сайта на сайт аварийного восстановления и отслеживает его. Вы можете отслеживать репликацию данных с сервера-источника на сервер аварийного восстановления с помощью команды создания моментальных снимков azacsnap -c details --details replication.

Отработка отказа на сайт аварийного восстановления

Выполните команду отработки отказа на сайте аварийного восстановления (azacsnap -c restore --restore revertvolume).

Внимание

Команда azacsnap -c restore --restore revertvolume прерывает репликацию хранилища с рабочего сайта на сайт аварийного восстановления. Для повторной настройки репликации необходимо обратиться в Microsoft Operations. После повторного включения репликации все данные в хранилище аварийного восстановления для этого идентификатора безопасности будут инициализированы. Команда, выполняющая отработку отказа, предоставляет доступ к последнему реплицированному моментальному снимку хранилища. Если необходимо восстановить старую версию моментального снимка, отправьте запрос в службу поддержки, чтобы команда Operations могла предоставить более ранний моментальный снимок, восстановленный на сайте аварийного восстановления.

На высоком уровне следует выполнить шаги ниже для отработки отказа аварийного восстановления.

  • Необходимо завершить работу экземпляра HANA на основном сайте. Это действие требуется только в том случае, если вы действительно выполняете отработку отказа на сайт аварийного восстановления, т. е. несогласованность данных отсутствует.
  • Завершите работу экземпляра HANA на узле аварийного восстановления для рабочего идентификатора безопасности.
  • Выполните команду azacsnap -c restore --restore revertvolume на узле аварийного восстановления с идентификатором безопасности для восстановления.
    • Команда закрывает канал репликации хранилища с основного сайта на сайт аварийного восстановления.
    • Команда восстанавливает только тома /data и /logbackups, том /shared НЕ восстанавливается, а вместо него использует существующий том /shared для идентификатора безопасности в расположении аварийного восстановления.
    • Подключение томов /data и /logbackups — обязательно добавьте их в файл fstab.
  • Восстановите моментальный снимок HANA SYSTEMDB. HANA Studio показывает только последний моментальный снимок HANA, доступный в моментальном снимке хранилища, который был восстановлен в ходе выполнения команды azacsnap -c restore --restore revertvolume.
  • Восстановите базу данных клиента.
  • Запустите экземпляр HANA на сайте аварийного восстановления для рабочего идентификатора безопасности (например, в этом случае — H80).
  • Выполните тестирование.

Пример выполнения аварийного восстановления

В этом подразделе описаны подробные инструкции по отработке отказа на сайт аварийного восстановления.

Шаг 1. Получение сведений о томе для узла аварийного восстановления

Выполните команду df –h, чтобы получить список файловых систем и связанных томов, на которые следует ссылаться после отработки отказа.

df -h
Filesystem Size Used Avail Use% Mounted on
devtmpfs 378G 8.0K 378G 1% /dev
tmpfs 569G 0 569G 0%
/dev/shm
tmpfs 378G 18M 378G 1% /run
tmpfs 378G 0 378G 0%
/sys/fs/cgroup
/dev/mapper/3600a098038304445622b4b584c575a66-part2 47G 20G 28G 42% /
/dev/mapper/3600a098038304445622b4b584c575a66-part1 979M 57M 856M 7% /boot
172.18.20.241:/hana_log_h80_mnt00003_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00001_t020_vol 512G 5.5G 507G 2% /hana/log/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00003_t020_vol 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00002_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00002_t020_vol 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00001_t020_vol 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_shared_h80_t020_vol/usr_sap_node1 2.7T 11G 2.7T 1% /usr/sap/H80
tmpfs 76G 0 76G 0% /run/user/0
172.18.20.241:/hana_shared_h80_t020_vol 2.7T 11G 2.7T 1% /hana/shared
172.18.20.241:/hana_data_h80_mnt00001_t020_xdp 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00002_t020_xdp 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00003_t020_xdp 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_backups_h80_t020_xdp 512G 15G 498G 3% /hana/logbackups/H80_T250

Шаг 2. Завершение работы HANA на основном сайте

Если выполняется полная отработка отказа рабочих нагрузок рабочей нагрузки и можно подключиться к основному рабочему сайту, то завершите работу экземпляров SAP HANA, которые отправляются на сайт аварийного восстановления.

Например, в следующем примере показано, как можно завершить работу SAP HANA, если войти в качестве привилегированного пользователя. Замените <идентификатор безопасности> SAP HANA.

su - <sid>adm
HDB stop

Шаг 3. Завершение работы HANA на сайте аварийного восстановления

Прежде чем восстанавливать тома, важно завершить работу SAP HANA на сайте аварийного восстановления.

Например, в следующем примере показано, как можно завершить работу SAP HANA, если войти в качестве привилегированного пользователя. Замените <идентификатор безопасности> SAP HANA.

su - <sid>adm
HDB stop

Внимание

Перед восстановлением томов убедитесь, что экземпляры HANA на сайте аварийного восстановления отключены.

Шаг 4. Восстановление томов

azacsnap -c restore --restore revertvolume --dbsid H80

Выходные данные команды отработки отказа аварийного восстановления.

azacsnap --configfile DR.json -c restore --restore revertvolume --dbsid H80
* This program is designed for those customers who have previously installed the
  Production HANA instance in the Disaster Recovery Location either as a
  stand-alone instance or as part of a multi-purpose environment.
* This program should be executed from the Disaster Recovery location otherwise
  unintended consequences may result.
* This program is intended to allow the customer to complete a Disaster Recovery
  failover.
* Any other restore points must be handled by Microsoft Operations.
* All volumes ('data' and 'other') are reverted to their most recent snapshot.
* The SnapMirror replication relationship between Prod and DR will be broken.

  CAUTION: a failback will be required after running this command and failback
   might not be a quick process and will require multiple steps in coordination
   with Microsoft Operations.

Do you wish to continue? (y/n) [n]: y
Checking state of HLI volumes for SID 'H80'
Configured volumes (Data and Other) are not quiesced for revert, will retry in 00:00:10 seconds
Volumes All Ok to Revert = True
Reverting volume 'hana_data_h80_mnt00001_t020_xdp' to snapshot 'H80_HANA_DATA_30MIN.2020-09-16_0330.0'
DR.json Data Volume #1 'hana_data_h80_mnt00001_t020_xdp' assigning to mountpoint 'mnt00001'
Reverting volume 'hana_log_backups_h80_t020_xdp01' to snapshot 'H80_HANA_LOGS_3MIN_X9.2020-09-16_0339.recent'
DR.json Other Volume #1 'hana_log_backups_h80_t020_xdp01' assigning to mountpoint '01'
HLI Volume revert completed for SID 'H80'
Displaying Mount Points by Volume as follows:
10.50.251.34:/hana_data_h80_mnt00001_t020_xdp  /hana/data/H80/mnt00001 nfs  rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
10.50.251.36:/hana_log_backups_h80_t020_xdp01  /hana/log_backups/H80/01 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
*********************  HANA DR Restore Steps  **********************************
* Please complete the following steps to recover your HANA database:           *
* 1. Ensure ALL the target mount points exist to mount the snapshot clones.    *
*    e.g. mkdir /hana/logbackups/H99_SOURCE                                    *
* 2. Add Mount Point Details from 'Displaying Mount Points by Volume' as       *
*    output above into /etc/fstab of DR Server.                                *
* 3. Mount newly added filesystems.                                            *
* 4. Perform HANA Snapshot Recovery using HANA Studio.                         *
********************************************************************************

Примечание.

Чтобы завершить подготовку хранилища для отработки отказа аварийного восстановления, необходимо выполнить действия в конце окна консоли.

Шаг 5. Отключение ненужных файловых систем

Выполните команду umount, чтобы отключить ненужные файловые системы или тома.

umount <Mount point>

Отключите точки подключения резервного копирования данных и журналов. В сценарии горизонтального масштабирования может быть несколько точке подключения к данным.

Шаг 6. Настройка точек подключения

Измените файл /etc/fstab, чтобы закомментировать записи и резервные копии журналов основного идентификатора безопасности (в этом примере это SID = H80) и добавить новые записи точек подключения, созданные на основе томов аварийного восстановления основного сайта. Новые записи точек подключения приведены в выходных данных команды.

  • Закомментируйте существующие точки подключения, работающие на сайте аварийного восстановления, с помощью символа #:

    #172.18.20.241:/hana_data_h80_mnt00001_t020_vol /hana/data/H80/mnt00001 nfs     rw,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
    #172.18.20.241:/hana_log_backups_h80_t020 /hana/logbackups/H80 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
    
  • Добавьте следующие строки в /etc/fstab

    это должны быть те же выходные данные команды

    10.50.251.34:/hana_data_h80_mnt00001_t020_xdp  /hana/data/H80/mnt00001 nfs  rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
    10.50.251.36:/hana_log_backups_h80_t020_xdp01  /hana/log_backups/H80/01 nfs rw,bg,hard,timeo=600,vers=4,rsize=1048576,wsize=1048576,intr,noatime,lock 0 0
    

Шаг 7. Подключение томов восстановления

Выполните команду mount –a, чтобы подключить все точки подключения.

mount -a

Теперь при выполнении df –h вы должны увидеть подключенные тома *_dp.

df -h
Filesystem Size Used Avail Use% Mounted on
devtmpfs 378G 8.0K 378G 1% /dev
tmpfs 569G 0 569G 0% /dev/shm
tmpfs 378G 18M 378G 1% /run
tmpfs 378G 0 378G 0% /sys/fs/cgroup
/dev/mapper/3600a098038304445622b4b584c575a66-part2 47G 20G 28G 42% /
/dev/mapper/3600a098038304445622b4b584c575a66-part1 979M 57M 856M 7% /boot
172.18.20.241:/hana_log_h80_mnt00003_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00001_t020_vol 512G 5.5G 507G 2% /hana/log/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00003_t020_vol 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_h80_mnt00002_t020_vol 512G 2.1G 510G 1% /hana/log/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00002_t020_vol 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00001_t020_vol 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_shared_h80_t020_vol/usr_sap_node1 2.7T 11G 2.7T 1% /usr/sap/H80
tmpfs 76G 0 76G 0% /run/user/0
172.18.20.241:/hana_shared_h80_t020_vol 2.7T 11G 2.7T 1% /hana/shared
172.18.20.241:/hana_data_h80_mnt00001_t020_xdp 1.2T 6.4G 1.2T 1% /hana/data/H80/mnt00001
172.18.20.241:/hana_data_h80_mnt00002_t020_xdp 1.2T 300M 1.2T 1% /hana/data/H80/mnt00002
172.18.20.241:/hana_data_h80_mnt00003_t020_xdp 1.2T 332M 1.2T 1% /hana/data/H80/mnt00003
172.18.20.241:/hana_log_backups_h80_t020_xdp 512G 15G 498G 3% /hana/logbackups/H80_T250

Шаг 8. Восстановление SYSTEMDB

В HANA Studio щелкните правой кнопкой мыши экземпляр SYSTEMDB и выберите пункт "Резервное копирование и восстановление", а затем "Восстановить системную базу данных".

Ознакомьтесь с руководством по восстановлению базы данных из моментального снимка, в частности SYSTEMDB.

Шаг 9. Восстановление базы данных клиента

В HANA Studio щелкните правой кнопкой мыши экземпляр SYSTEMDB и выберите пункт "Резервное копирование и восстановление", а затем "Восстановить базу данных клиента".

Ознакомьтесь с руководством по восстановлению базы данных из моментального снимка, в частности баз данных клиента.

Выполнение azacsnap -c backup на сайте аварийного восстановления

Если на сайте аварийного восстановления выполняются резервные копии на основе моментальных снимков, то имя сервера HANA, настроенное в файле конфигурации azacsnap на сайте аварийного восстановления, должно совпадать с именем рабочего сервера.

Внимание

При запуске azacsnap -c backup можно создавать моментальные снимки хранилища на сайте аварийного восстановления, которые не реплицируются автоматически на другой сайт. Необходимо взаимодействие с Microsoft Operations для лучшего понимания процедуры возврата файлов и данных на исходный рабочий сайт.

Следующие шаги