Fiabilidade em Máquinas Virtuais
Este artigo contém informações detalhadas sobre resiliência regional de VM com zonas de disponibilidade, recuperação de desastres entre regiões e continuidade de negócios.
Suporte à zona de disponibilidade
As zonas de disponibilidade do Azure são pelo menos três grupos fisicamente separados de datacenters em cada região do Azure. Os datacenters dentro de cada zona são equipados com infraestrutura independente de energia, resfriamento e rede. No caso de uma falha de zona local, as zonas de disponibilidade são projetadas de modo que, se uma zona for afetada, os serviços regionais, a capacidade e a alta disponibilidade sejam suportados pelas duas zonas restantes.
As falhas podem variar de falhas de software e hardware a eventos como terremotos, inundações e incêndios. A tolerância a falhas é alcançada com redundância e isolamento lógico dos serviços do Azure. Para obter informações mais detalhadas sobre zonas de disponibilidade no Azure, consulte Regiões e zonas de disponibilidade.
Os serviços habilitados para zonas de disponibilidade do Azure são projetados para fornecer o nível certo de confiabilidade e flexibilidade. Eles podem ser configurados de duas maneiras. Eles podem ser redundantes de zona, com replicação automática entre zonas, ou zonais, com instâncias fixadas a uma zona específica. Você também pode combinar essas abordagens. Para obter mais informações sobre arquitetura zonal versus arquitetura com redundância de zona, consulte Recomendações para usar zonas e regiões de disponibilidade.
As máquinas virtuais dão suporte a zonas de disponibilidade com três zonas de disponibilidade por região do Azure com suporte e também são redundantes de zona e zonais. Para obter mais informações, consulte Suporte a zonas de disponibilidade. O cliente é responsável por configurar e migrar suas máquinas virtuais para disponibilidade.
Para saber mais sobre as opções de preparação da zona de disponibilidade, consulte:
- Consulte as opções de disponibilidade para VMs
- Revise o serviço da zona de disponibilidade e o suporte à região
- Migrar VMs existentes para zonas de disponibilidade
Pré-requisitos
As SKUs da máquina virtual devem estar disponíveis nas zonas da sua região. Para analisar quais regiões oferecem suporte a zonas de disponibilidade, consulte a lista de regiões suportadas.
Suas SKUs de VM devem estar disponíveis nas zonas da sua região. Para verificar a disponibilidade de SKU da VM, use um dos seguintes métodos:
Melhorias no SLA
Como as zonas de disponibilidade são fisicamente separadas e fornecem fonte de alimentação, rede e resfriamento distintos, os SLAs (contratos de nível de serviço) aumentam. Para obter mais informações, veja SLA para Máquinas Virtuais.
Criar um recurso com zonas de disponibilidade ativadas
Comece criando uma máquina virtual (VM) com zona de disponibilidade habilitada nas seguintes opções de implantação abaixo:
Suporte a failover zonal
Você pode configurar máquinas virtuais para failover para outra zona usando o serviço de Recuperação de Site. Para obter mais informações, consulte Recuperação de site.
Tolerância a falhas
As máquinas virtuais podem fazer failover para outro servidor em um cluster, com o sistema operacional da VM sendo reiniciado no novo servidor. Você deve consultar o processo de failover para recuperação de desastres, reunindo máquinas virtuais no planejamento de recuperação e executando exercícios de recuperação de desastres para garantir que sua solução de tolerância a falhas seja bem-sucedida.
Para obter mais informações, consulte os processos de recuperação de site.
Experiência de zoneamento
Durante uma interrupção em toda a zona, você deve esperar uma breve degradação do desempenho até que a autorrecuperação do serviço de máquina virtual reequilibre a capacidade subjacente de se ajustar a zonas íntegras. A autorrecuperação não depende da restauração da zona; espera-se que o estado de autorrecuperação do serviço gerenciado pela Microsoft compense uma zona perdida, usando a capacidade de outras zonas.
Você também deve se preparar para a possibilidade de haver uma interrupção de toda uma região. Se houver uma interrupção do serviço para uma região inteira, as cópias localmente redundantes dos seus dados ficarão temporariamente indisponíveis. Se a replicação geográfica estiver habilitada, três outras cópias dos blobs e tabelas do Armazenamento do Azure serão armazenadas em uma região diferente. Quando há uma interrupção regional completa ou um desastre no qual a região primária não é recuperável, o Azure remapeia todas as entradas DNS para a região replicada geograficamente.
Preparação e recuperação de interrupções de zona
As diretrizes a seguir são fornecidas para máquinas virtuais do Azure durante uma interrupção de serviço de toda a região onde seu aplicativo de máquina virtual do Azure é implantado:
- Configurar o Azure Site Recovery para suas VMs
- Verifique o status do Painel de Integridade do Serviço do Azure se o Azure Site Recovery não tiver sido configurado
- Rever como o serviço de Backup do Azure funciona para VMs
- Consulte a matriz de suporte para backups de VM do Azure
- Determinar qual opção e cenário de restauração de VM funciona melhor para seu ambiente
Design de baixa latência
Cross Region (região secundária), Cross Subscription (visualização) e Cross Zonal (visualização) são opções disponíveis a serem consideradas ao projetar uma solução de máquina virtual de baixa latência. Para obter mais informações sobre essas opções, consulte os métodos de restauração suportados.
Importante
Ao desativar a implantação com reconhecimento de zona, você renuncia à proteção contra o isolamento de falhas subjacentes. O uso de SKUs que não oferecem suporte a zonas de disponibilidade ou a exclusão da configuração da zona de disponibilidade força a dependência de recursos que não obedecem ao posicionamento e à separação da zona (incluindo dependências subjacentes desses recursos). Não se deve esperar que esses recursos sobrevivam a cenários de zone-down. As soluções que aproveitam esses recursos devem definir uma estratégia de recuperação de desastres e configurar uma recuperação da solução em outra região.
Técnicas de implementação seguras
Ao optar pelo isolamento de zonas de disponibilidade, você deve utilizar técnicas de implantação seguras para o código do aplicativo e atualizações do aplicativo. Além de configurar o Azure Site Recovery e implementar qualquer uma das seguintes técnicas de implantação segura para VMs:
- Conjuntos de Dimensionamento de Máquinas Virtuais
- Balanceador de Carga do Azure
- Redundância de Armazenamento do Azure
Como a Microsoft executa periodicamente atualizações de manutenção planejadas, pode haver casos raros em que essas atualizações exigem uma reinicialização da máquina virtual para aplicar as atualizações necessárias à infraestrutura subjacente. Para saber mais, consulte Considerações sobre disponibilidade durante a manutenção agendada.
Antes de atualizar seu próximo conjunto de nós em outra zona, você deve executar as seguintes tarefas:
- Verifique o Painel de Integridade do Serviço do Azure para obter o status do serviço de máquinas virtuais para suas regiões esperadas.
- Verifique se a replicação está habilitada em suas VMs.
Migrar para o suporte à zona de disponibilidade
Para saber como migrar uma VM para o suporte à zona de disponibilidade, consulte Migrar máquinas virtuais e conjuntos de dimensionamento de máquinas virtuais para suporte à zona de disponibilidade.
- Mover uma VM para outra assinatura ou grupo de recursos
- Azure Resource Mover
- Mover VMs do Azure para zonas de disponibilidade
- Mover recursos de configuração de manutenção de região
Recuperação de desastres entre regiões e continuidade de negócios
A recuperação de desastres (DR) consiste na recuperação de eventos de alto impacto, como desastres naturais ou implantações com falha que resultam em tempo de inatividade e perda de dados. Independentemente da causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que suporte ativamente a DR. Antes de começar a pensar em criar seu plano de recuperação de desastres, consulte Recomendações para projetar uma estratégia de recuperação de desastres.
Quando se trata de DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços da plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente ou recorrem de uma região com falha para replicação cruzada para outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastres que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de plataforma como serviço (PaaS) do Azure fornecem recursos e orientação para dar suporte à DR e você pode usar recursos específicos do serviço para dar suporte à recuperação rápida para ajudar a desenvolver seu plano de DR.
Você pode usar a restauração entre regiões para restaurar VMs do Azure por meio de regiões emparelhadas. Com a restauração entre regiões, você pode restaurar todas as VMs do Azure para o ponto de recuperação selecionado se o backup for feito na região secundária. Para obter mais informações sobre a restauração entre regiões, consulte a entrada de linha da tabela entre regiões em nossas opções de restauração.
Recuperação de desastres em geografia de várias regiões
No caso de uma interrupção de serviço em toda a região, a Microsoft trabalha diligentemente para restaurar o serviço de máquina virtual. No entanto, você ainda precisa confiar em outras estratégias de backup específicas do aplicativo para alcançar o mais alto nível de disponibilidade. Para obter mais informações, consulte a seção sobre Estratégias de dados para recuperação de desastres.
Deteção, notificação e gerenciamento de interrupções
O hardware ou a infraestrutura física da máquina virtual pode falhar inesperadamente. Falhas inesperadas podem incluir falhas de rede local, falhas de disco local ou outras falhas no nível de rack. Quando detetada, a plataforma Azure migra automaticamente (recupera) sua máquina virtual para uma máquina física íntegra no mesmo data center. Durante o procedimento de recuperação, as máquinas virtuais sofrem um período de indisponibilidade (reinício) e, em alguns casos, a perda da unidade temporária. O SO anexado e os discos de dados são sempre preservados.
Para obter informações mais detalhadas sobre interrupções do serviço de máquina virtual, consulte as diretrizes de recuperação de desastres.
Configurar a recuperação de desastres e a deteção de interrupções
Ao configurar a recuperação de desastres para máquinas virtuais, entenda o que o Azure Site Recovery fornece. Habilite a recuperação de desastres para máquinas virtuais com os métodos abaixo:
- Configurar a recuperação de desastres para uma região secundária do Azure para uma VM do Azure
- Criar um cofre dos Serviços de Recuperação
- Habilitar a recuperação de desastres para máquinas virtuais Linux
- Habilitar a recuperação de desastres para máquinas virtuais do Windows
- Failover de máquinas virtuais para outra região
- Failover de máquinas virtuais para a região primária
Recuperação de desastres em geografia de uma única região
Com a configuração de recuperação de desastres, as VMs do Azure replicam continuamente para uma região de destino diferente. Se ocorrer uma interrupção, você poderá fazer failover de VMs para a região secundária e acessá-las a partir daí.
Quando você replica VMs do Azure usando o Site Recovery, todos os discos de VM são replicados continuamente para a região de destino de forma assíncrona. Os pontos de recuperação são criados a cada poucos minutos, o que concede um RPO (Recovery Point Objetive, objetivo de ponto de recuperação) na ordem dos minutos. Você pode realizar exercícios de recuperação de desastres quantas vezes quiser, sem afetar o aplicativo de produção ou a replicação contínua. Para obter mais informações, consulte Executar um drill de recuperação de desastres no Azure.
Para obter mais informações, consulte Componentes de arquitetura de VMs do Azure e emparelhamento de região.
Capacidade e resiliência proativa de recuperação de desastres
A Microsoft e seus clientes operam sob o Modelo de Responsabilidade Compartilhada. Responsabilidade compartilhada significa que, para DR (serviços de responsabilidade do cliente) habilitados para o cliente, você deve abordar a DR para qualquer serviço que eles implantem e controlem. Para garantir que a recuperação seja proativa, você deve sempre pré-implantar secundários porque não há garantia de capacidade no momento do impacto para aqueles que não foram pré-alocados.
Para implantar máquinas virtuais, você pode usar o modo de orquestração flexível em Conjuntos de Dimensionamento de Máquina Virtual. Todos os tamanhos de VM podem ser usados com o modo de orquestração flexível. O modo de orquestração flexível também oferece garantias de alta disponibilidade (até 1000 VMs) espalhando VMs entre domínios de falha dentro de uma região ou dentro de uma zona de disponibilidade.