Compartilhar via


Confiabilidade nas Máquinas Virtuais

Esse artigo contém informações detalhadas sobre resiliência regional de VM com zonas de disponibilidade, recuperação de desastres entre regiões e continuidade de negócios.

Suporte à zona de disponibilidade

As zonas de disponibilidade são grupos de datacenters fisicamente separados em cada região do Azure. Quando uma zona falha, os serviços podem fazer failover para uma das zonas restantes.

Para obter mais informações sobre zonas de disponibilidade no Azure, veja O que são zonas de disponibilidade?.

As máquinas virtuais dão suporte a zonas de disponibilidade com três zonas de disponibilidade por região do Azure com suporte e também são com redundância de zona e zonal. Para obter mais informações, veja Serviços do Azure com zonas de disponibilidade. O cliente é responsável por configurar e migrar suas máquinas virtuais para disponibilidade.

Para saber mais sobre as opções de preparação da zona de disponibilidade, confira:

Pré-requisitos

Aprimoramentos do SLA

Como as zonas de disponibilidade são fisicamente separadas e fornecem fonte de energia, rede e refrigeração distintas, os SLAs (Contratos de nível de serviço) aumentam. Para saber mais, confira SLA para máquinas virtuais.

Criar um recurso com zonas de disponibilidade habilitadas

Comece criando uma máquina virtual (VM) com a zona de disponibilidade habilitada nas seguintes opções de implantação abaixo:

Suporte a failover zonal

Você pode configurar máquinas virtuais para fazer failover em outra zona usando o serviço Site Recovery. Para obter mais informações, confira Site Recovery.

Tolerância a falhas

As máquinas virtuais podem fazer failover para outro servidor em um cluster, com o sistema operacional da VM reiniciando no novo servidor. Você deve consultar o processo de failover para recuperação de desastre, reunindo máquinas virtuais no planejamento de recuperação e executando exercícios de recuperação de desastre para garantir que sua solução de tolerância a falhas seja bem-sucedida.

Para obter mais informações, confira os processos de recuperação de sites.

Experiência de zona inoperante

Durante uma interrupção em toda a zona, você deve esperar uma breve degradação do desempenho, até que a autocorreção do serviço de máquina virtual reequilibre a capacidade subjacente para se ajustar às zonas íntegras. A autorrecuperação não depende da restauração da zona; espera-se que o estado de auto correção de serviço gerenciado pela Microsoft compense uma zona perdida, usando a capacidade de outras zonas.

Você também deve se preparar para a possibilidade de interrupção de uma região inteira. Se houver uma interrupção de serviço em uma região inteira, as cópias localmente redundantes de seus dados ficarão temporariamente indisponíveis. Se a replicação geográfica estiver habilitada, três cópias adicionais de seus blobs e tabelas de Armazenamento do Microsoft Azure serão armazenadas em uma região diferente. Quando há uma interrupção regional completa ou um desastre no qual a região primária não é recuperável, o Azure remapeia todas as entradas DNS para a região replicada geograficamente.

Preparação e recuperação de interrupção de zona

A orientação a seguir é fornecida para máquinas virtuais do Azure durante uma interrupção do serviço de toda a região onde seu aplicativo de máquina virtual do Azure é implantado:

Design de baixa latência

Entre Regiões (região secundária), Assinatura Integrada (versão prévia) e Zona Integrada (versão prévia) são opções disponíveis a serem consideradas ao projetar uma solução de máquina virtual de baixa latência. Para obter mais informações sobre essas opções, confira os métodos de restauração com suporte.

Importante

Ao recusar a implantação com reconhecimento de zona, você abre mão da proteção contra o isolamento de falhas subjacentes. O uso de SKUs que não dão suporte a zonas de disponibilidade ou a recusa da configuração da zona de disponibilidade força a dependência de recursos que não obedecem ao posicionamento e à separação da zona (incluindo dependências subjacentes desses recursos). Não se deve esperar que esses recursos sobrevivam a cenários de zona inativa. As soluções que alavancam tais recursos devem definir uma estratégia de recuperação de desastre e configurar uma recuperação da solução em outra região.

Técnicas de implantação segura

Ao optar pelo isolamento de zonas de disponibilidade, utilize técnicas de implantação seguras para código de aplicativo e atualizações de aplicativos. Além de configurar o Azure Site Recovery e implementar qualquer uma das seguintes técnicas de implantação seguras para VMs:

Como a Microsoft executa atualizações de manutenção planejadas periodicamente, pode haver casos raros em que essas atualizações exijam uma reinicialização de sua máquina virtual para aplicar as atualizações necessárias à infraestrutura subjacente. Para saber mais, confira as considerações de disponibilidade durante a manutenção agendada.

Antes de atualizar o próximo conjunto de nós em outra zona, você deve executar as seguintes tarefas:

Migrar para o suporte às zonas de disponibilidade

Para saber como migrar uma VM para o suporte à zona de disponibilidade, consulte Migrar Máquinas Virtuais e Conjuntos de Dimensionamento de Máquinas Virtuais para o suporte à zona de disponibilidade.

Recuperação de desastre entre regiões e continuidade dos negócios

A DR (recuperação de desastre) trata da recuperação após eventos de alto impacto, como desastres naturais ou implantações com falha, que resultam em tempo de inatividade e perda de dados. Seja qual for a causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que dê suporte ativo à DR. Antes de começar a pensar em criar seu plano de recuperação de desastre, confira Recomendações para criar uma estratégia de recuperação de desastre.

Quando o assunto é DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços de plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente nem retornam de uma região com falha para a replicação cruzada em outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastres que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de PaaS (plataforma como serviço) do Azure fornece recursos e diretrizes para dar suporte à DR. Além disso, você pode usar recursos específicos do serviço para dar suporte a uma recuperação rápida, a fim de ajudar a desenvolver seu plano de DR.

Você pode usar a restauração Entre Regiões para restaurar VMs do Azure por meio de regiões emparelhadas. Com a restauração Entre Regiões, você pode restaurar todas as VMs do Azure para o ponto de recuperação selecionado se o backup for feito na região secundária. Para obter mais informações sobre a restauração Entre Regiões, consulte a entrada da tabela Entre Regiões em nossas opções de restauração.

Recuperação de desastre na geografia de várias regiões

No caso de uma interrupção de serviço em toda a região, a Microsoft trabalha diligentemente para restaurar o serviço da máquina virtual. Porém, você ainda deve contar com outras estratégias de backup específicas ao aplicativo para chegar ao nível mais alto de disponibilidade. Para obter mais informações, consulte a seção sobre Estratégias de Dados para Recuperação de Desastre.

Detecção, notificação e gerenciamento de interrupção

O hardware ou a infraestrutura física da máquina virtual podem falhar inesperadamente. As falhas inesperadas podem incluir falhas na rede local, falhas no disco local ou outras falhas no nível de rack. Quando detectada, a plataforma do Azure migra automaticamente (repara) a máquina virtual para um computador físico íntegro no mesmo datacenter. Durante o procedimento de recuperação, as máquinas virtuais ficarão inativas (reinicialização) e, em alguns casos, perderão a unidade temporária. O sistema operacional e os discos de dados anexados são sempre preservados.

Para obter informações mais detalhadas sobre interrupções de serviço de máquina virtual, confira asdiretrizes de recuperação de desastre.

Configurar a recuperação de desastre e a detecção de interrupções

Ao configurar a recuperação de desastre para máquinas virtuais, entenda o que o Azure Site Recovery fornece. Habilite a recuperação de desastre para máquinas virtuais com os métodos abaixo:

Recuperação de desastre na geografia de região única

Com a recuperação de desastre configurada, as VMs do Azure são replicadas de maneira contínua para outra região de destino. Se ocorrer uma interrupção, você poderá fazer failover das VMs para a região secundária e acessá-las nela.

Quando você replicar VMs do Azure usando a Recuperação de Site, todos os discos de VM serão replicados continuamente para a região de destino assincronamente. Os pontos de recuperação são criados a cada poucos minutos, o que concede um RPO (Objetivo de Ponto de Recuperação) na ordem dos minutos. Você pode realizar simulações de recuperação de desastre quantas vezes quiser sem afetar o aplicativo de produção ou a replicação contínua. Para saber mais, confira Realizar uma análise detalhada da recuperação de desastre para o Azure.

Para obter mais informações, confira componentes arquitetônicos de VMs do Azure e emparelhamento de região.

Capacidade e resiliência proativa de recuperação de desastre

A Microsoft e seus clientes operam ao abrigo do Modelo de Responsabilidade Compartilhada. A responsabilidade compartilhada significa que, para DR habilitada pelo cliente (serviços responsáveis pelo cliente), você deve abordar a DR para qualquer serviço que implemente e controle. Para garantir que a recuperação seja proativa, você sempre deve pré-implantar secundárias porque não há garantia de capacidade no momento do impacto para aqueles que não foram pré-alocados.

Para implantar máquinas virtuais, você pode usar o modo de orquestração flexível em Conjuntos de Dimensionamento de Máquinas Virtuais. Todos os tamanhos da VM podem ser usados com o modo de orquestração flexível. O modo de orquestração flexível também oferece garantias de alta disponibilidade (até 1000 VMs), distribuindo VMs por domínios de falha em uma região ou dentro de uma zona de disponibilidade.

Próximas etapas