Descrição geral do Azure Site Recovery

10 minutos

O Azure Site Recovery é mais do que uma simples ferramenta para ajudar na recuperação de períodos de indisponibilidade do sistema. O Azure Site Recovery replica cargas de trabalho entre um site primário e um site secundário. O Site Recovery também pode ser utilizado para migrar VMs de uma infraestrutura no local para o Azure.

Por exemplo, a primeira coisa que tem de fazer para proteger as suas cargas de trabalho contra sismos é rever o plano atual de continuidade de negócio e recuperação após desastre (BCDR) da empresa. Tem de identificar os diferentes objetivos de recuperação e o âmbito dos sistemas que precisam de proteção.

Nesta unidade, você investiga como o Azure Site Recovery pode ajudar a atingir essas metas e possibilita o failover e a recuperação de recursos se ocorrer um desastre.

Continuidade de negócio e recuperação após desastre

A perda de serviço pode causar interrupções à sua equipa e aos utilizadores. Cada segundo em que os sistemas estão indisponíveis pode resultar em perda de receita para a sua empresa. Sua empresa também pode enfrentar penalidades financeiras por quebrar acordos de disponibilidade dos serviços que você fornece.

Os planos BCDR são documentos formais que as empresas elaboram para cobrir o escopo e as ações que devem ser tomadas quando um desastre ou interrupção em grande escala acontece. Cada período de indisponibilidade é avaliado individualmente. Por exemplo, um plano BCDR entra em ação quando um datacenter inteiro perde energia.

Neste cenário de exemplo, ocorreu um terremoto e danificou as linhas de comunicação, tornando o datacenter inútil e precisando de reparo. Um desastre desse tamanho pode derrubar serviços por dias, não horas, portanto, um plano BCDR completo deve ser invocado para colocar os serviços on-line novamente.

Como parte do seu plano BCDR, identifique os objetivos de tempo de recuperação (RTO) e os objetivos de ponto de recuperação (RPO) para as suas aplicações. Juntos, esses dois objetivos ajudam a identificar o máximo de horas que sua empresa pode ficar sem serviços especificados e qual deve ser o processo de recuperação de dados. Vamos analisar cada um deles mais detalhadamente.

An illustration showing the duration, in hours, of the recovery point objective and recovery time objective from the time of the disaster.

Objetivo do tempo de recuperação

Um RTO é uma medida da quantidade máxima de tempo que sua empresa pode sobreviver após um desastre até que o serviço normal deva ser restaurado, a fim de evitar consequências inaceitáveis associadas a uma interrupção na continuidade. Vamos supor que o seu RTO é de 12 horas, o que significa que as operações podem continuar a ser executadas durante 12 horas sem o funcionamento dos serviços principais da empresa. Se o tempo de inatividade for maior, sua empresa será seriamente prejudicada.

Objetivo de ponto de recuperação

Um RPO é uma medida da quantidade máxima de perda de dados aceitável após um desastre. Normalmente, uma empresa pode decidir fazer um backup a cada 24 horas, 12 horas ou até mesmo em tempo real. Há sempre alguma perda de dados quando ocorre um desastre.

Por exemplo, se o backup ocorresse à meia-noite a cada 24 horas e um desastre acontecesse às 9h00, nove horas de dados seriam perdidas. Se o RPO da sua empresa fosse de 12 horas, a situação não seria problemática, porque só teriam passado nove horas. Se o RPO fosse de 4 horas, haveria um problema e a empresa sofreria danos.

O que é o Azure Site Recovery?

O Azure Site Recovery pode contribuir para seu plano BCDR porque pode replicar cargas de trabalho de um site primário para um site secundário. Se ocorrer um problema no site primário, a Recuperação de Site pode ser invocada automaticamente para replicar as máquinas virtuais protegidas para outro local. A ativação pós-falha pode ser do local para o Azure ou de uma região do Azure para outra.

Eis algumas funcionalidades notáveis do Azure Site Recovery:

Gerenciamento central: a replicação pode ser configurada e gerenciada, e failover e failback podem ser invocados tudo de dentro do portal do Azure.
Replicação de máquina virtual local: as máquinas virtuais locais podem ser replicadas para o Azure ou para um datacenter local secundário, se necessário.
Replicação de máquina virtual do Azure: as máquinas virtuais do Azure podem ser replicadas de uma região para outra.
Consistência do aplicativo durante o failover: usando pontos de recuperação e instantâneos consistentes com o aplicativo, as máquinas virtuais são sempre mantidas em um estado consistente durante a replicação.
Failover flexível: os failovers podem ser executados sob demanda como um teste ou acionados durante um desastre real. Os testes podem ser executados para simular um cenário de recuperação após desastre sem interromper o seu serviço ativo.
Integração de rede: o Site Recovery pode gerenciar o gerenciamento de rede durante um cenário de replicação e recuperação de desastres. Estão incluídos endereços IP reservados e balanceadores de carga, para que as máquinas virtuais possam funcionar na nova localização.

Configurar o Azure Site Recovery

Diagram showing the Azure Site Recovery architecture.

É necessário configurar vários componentes para ativar o Azure Site Recovery:

Rede: uma rede virtual válida do Azure é necessária para que as máquinas virtuais replicadas sejam usadas.
Cofre dos Serviços de Recuperação: um cofre na sua subscrição do Azure armazena as VMs migradas quando é executado um failover. O cofre contém também a política de replicação e as localizações de origem e de destino para replicação e ativação pós-falha.
Credenciais: as credenciais que você usa para o Azure devem ter as funções de Colaborador de Máquina Virtual e Colaborador de Recuperação de Site para permitir permissão para modificar a VM e o armazenamento ao qual a Recuperação de Site está conectada.
Servidor de configuração: um servidor VMware local cumpre várias funções durante o processo de failover e replicação. É obtido a partir do portal do Azure como uma aplicação de máquina virtual aberta (OVA) para uma fácil implementação. O servidor de configuração inclui:
- Servidor de processo: este servidor atua como um gateway para o tráfego de replicação. Comprime, encripta e coloca o tráfego em cache antes de o enviar através da WAN para o Azure. O servidor de processos também instala o serviço de mobilidade em todas as máquinas físicas e virtuais destinadas à ativação pós-falha e replicação.
- Servidor de destino mestre: esta máquina lida com o processo de replicação durante um failback do Azure.

Importante

Para efetuar uma reativação pós-falha do Azure para um ambiente no local, o VMware vCenter tem de estar disponível com um servidor de configuração, mesmo que esteja apenas a replicar máquinas físicas para o Azure. Não pode efetuar a reativação pós-falha em servidores físicos.

Processo de replicação

Azure Site Recovery architecture.

Após a configuração das tarefas de pré-requisitos, a replicação das máquinas pode ser iniciada. Eles são replicados de acordo com a política de replicação em vigor. Durante as fases iniciais da primeira cópia, os dados do servidor são replicados no Armazenamento do Azure. Após a conclusão da replicação inicial, ocorre uma segunda replicação. Desta vez, as alterações delta da máquina virtual são replicadas no Azure.

Testar e monitorizar uma ativação pós-falha

Depois que seu ambiente estiver configurado para recuperação de desastres, teste-o para verificar se ele está configurado corretamente e se tudo funciona como esperado. Teste a configuração ao efetuar um teste de recuperação após desastre numa VM isolada. Recomenda-se a utilização de uma rede isolada para o teste, para que os serviços ativos não sejam interrompidos.

A primeira coisa a fazer quando tentar realizar um teste de recuperação é verificar as propriedades da sua máquina virtual de teste na secção Itens Protegidos do portal do Azure. Os pontos de recuperação mais recentes são apresentados no painel Item Replicado. Na seção Compute & Network, o nome da máquina virtual, o grupo de recursos, o tamanho do destino, o conjunto de disponibilidade e as configurações de disco podem ser ajustados, se necessário.

Os testes de recuperação após desastre podem ser iniciados na secção Definições>Itens Replicados do portal do Azure. Selecione a máquina virtual de destino e, em seguida, selecione o item de menu Ativação Pós-Falha de Teste do último ponto de recuperação processado. Selecione a rede do Azure no mesmo menu. Para iniciar a tarefa de recuperação, selecione OK no ecrã de seleção da rede.

Pode aceder ao estado da tarefa de recuperação e da máquina virtual replicada na secção Descrição geral do cofre dos Serviços de Recuperação. Os itens replicados têm os seguintes estados:

Íntegro: a replicação está funcionando normalmente.
Aviso: há um problema que pode afetar a replicação.
Crítico: Foi detetado um erro crítico de replicação.

Se tudo correr bem, o status da VM replicada será definido como Executado com êxito. Se não tiver sido efetuado nenhum teste, o estado será Teste recomendado. O estado da VM também será Teste recomendado se já tiverem passado mais de seis meses desde o último teste.

Verifique o seu conhecimento

Quais são os principais passos necessários para configurar o Azure Site Recovery para proteger as suas VMs no local?

Gestão central, replicação de máquinas virtuais no local, integração da rede e consistência das aplicações durante a ativação pós-falha

Funcionamento em rede, criar um cofre dos Serviços de Recuperação, dar as permissões corretas às credenciais e instalar um servidor de configuração no vCenter através de um OVA

Itens Protegidos, Item Replicado, Computação e Rede, Utilizar um cofre dos Serviços de Recuperação existente e Ativação Pós-falha de Teste

Como deve testar a implementação do Azure Site Recovery?

Executar um teste de recuperação após desastre para todas as VMs protegidas na rede de produção.

Executar um teste de recuperação após desastre para uma única VM isolada na rede de produção.

Executar um teste de recuperação após desastre para uma única VM isolada numa rede isolada.

Tem de responder a todas as questões antes de verificar o seu trabalho.