Compartilhar via


Recomendações para design multirregional altamente disponível

Aplica-se a esta recomendação da lista de verificação de confiabilidade do Azure Well-Architected Framework:

RE:05 Adicione redundância em diferentes níveis, especialmente para fluxos críticos. Aplique redundância às camadas de computação, dados, rede e outras camadas de infraestrutura de acordo com as metas de confiabilidade identificadas.

Guias relacionados: Redundância | Usando zonas de disponibilidade e regiões

Este guia descreve as recomendações para projetar um ambiente de nuvem multirregional altamente disponível. A alta disponibilidade é um princípio fundamental do design para confiabilidade. Uma arquitetura altamente disponível pode ajudá-lo a evitar o tempo de inatividade o máximo possível e a se recuperar com eficiência se ocorrer um tempo de inatividade.

Ativo-ativo e ativo-passivo são tipos de arquitetura gerais que podem ser aplicados de maneiras diferentes, dependendo da plataforma em que você implanta seu ambiente. Este guia se concentra em um design de ambiente de nuvem multirregional. No Azure, você também pode criar uma arquitetura ativa-ativa ou ativa-passiva em uma única região usando zonas de disponibilidade. Para obter diretrizes detalhadas sobre como criar uma arquitetura altamente disponível usando zonas de disponibilidade, consulte o guia do Azure Well-Architected Framework.

Principais estratégias de design

Ativo-ativo e ativo-passivo são as duas abordagens fundamentais para projetar um ambiente de nuvem altamente disponível. Os ambientes ativos-ativos são projetados para lidar com cargas de produção em todas as regiões em que você implanta sua carga de trabalho. Os ambientes ativo-passivo são projetados para lidar com cargas de produção somente na região primária, mas fazem failover para a região secundária (passiva) quando necessário. Selecionar as melhores regiões do Azure para sua carga de trabalho é uma parte fundamental da criação de um ambiente de várias regiões altamente disponível. Para obter diretrizes sobre como selecionar regiões do Azure, consulte o guia Selecionar regiões do Azure.

Esta seção descreve as opções de design que você deve considerar ao avaliar cada padrão e refinar sua arquitetura para atender aos seus requisitos de negócios.

Consulte Padrão de Selos de Implantação para obter diretrizes sobre como arquitetar sua carga de trabalho de maneira repetível e escalonável. Esse padrão de design pode ajudá-lo a otimizar seu design de alta disponibilidade para um gerenciamento eficiente.

As seções a seguir descrevem as opções de design dos dois padrões.

Implante em ativo-ativo para tempo de inatividade zero

  • Ativo-ativo na capacidade: carimbos de implantação espelhados em duas ou mais regiões do Azure, cada um configurado para lidar com cargas de trabalho de produção para a região ou regiões que atendem e escalonável para lidar com cargas de outras regiões em caso de interrupção regional.

    • Rede: use latência ou roteamento global ponderado para distribuir o tráfego entre regiões.

    • Replicação e consistência de dados: use um armazenamento de dados distribuído globalmente, como o Azure Cosmos DB , para recursos de leitura e gravação de várias regiões. Para bancos de dados relacionais, use réplicas legíveis com cadeias de conexão somente leitura.

    • Vantagem deste design: Custos operacionais mais baixos do que um design superprovisionado.

    • Desvantagem desse design: possível degradação da experiência do usuário ao escalar verticalmente para atender às demandas de uma carga total se outra região sofrer uma interrupção.

  • Provisionado em excesso ativo-ativo: carimbos de implantação espelhados em duas ou mais regiões do Azure, cada um superprovisionado para lidar com cargas de trabalho de produção para a região ou regiões que atendem e para lidar com cargas de outras regiões em caso de interrupção regional.

    • Rede: use latência ou roteamento global ponderado para distribuir o tráfego entre regiões.

    • Replicação e consistência de dados: use um armazenamento de dados distribuído globalmente, como o Azure Cosmos DB , para recursos de leitura e gravação de várias regiões. Para bancos de dados relacionais, use réplicas legíveis com cadeias de conexão somente leitura.

    • Vantagem deste design: O design mais resiliente possível.

    • Desvantagem deste projeto: Custos operacionais mais altos do que um projeto escalável.

  • Vantagens comuns de ambos os projetos: alta resiliência e baixo risco de interrupção total da carga de trabalho.

  • Desvantagens comuns de ambos os projetos: custos operacionais mais altos e carga de gerenciamento devido a vários fatores, incluindo a necessidade de gerenciar a sincronização do estado e dos dados do aplicativo.

Implantar em ativo-passivo para recuperação de desastre

  • Reserva passiva: uma região primária e uma ou mais regiões secundárias. A região secundária é implantada com o mínimo possível de computação e dimensionamento de dados e é executada sem carga. Esta região é conhecida como uma região quente e sobressalente . Após o failover, os recursos de computação e dados são dimensionados para lidar com a carga da região primária.

    • Rede: use o roteamento global prioritário .

    • Replicação e consistência de dados: replique seu banco de dados para sua região passiva e use os recursos de failover automático de soluções de PaaS (plataforma como serviço), como o Azure Cosmos DB e o Banco de Dados SQL do Azure.

    • Vantagem deste design: Menor tempo de recuperação entre os designs ativo-passivo.

    • Desvantagem deste projeto: Maior custo operacional entre os projetos ativo-passivo.

  • Reserva fria: uma região primária e uma ou mais regiões secundárias. A região secundária é dimensionada para lidar com a carga total, mas todos os recursos de computação são interrompidos. Esta região é conhecida como uma região de reserva fria. Você precisa iniciar os recursos antes do failover.

    • Rede: use o roteamento global prioritário .

    • Replicação e consistência de dados: replique seu banco de dados para sua região passiva e use os recursos de failover automático de soluções de PaaS, como o Azure Cosmos DB e o Banco de Dados SQL do Azure.

    • Vantagem deste projeto: Custos operacionais mais baixos do que o design de reposição quente.

    • Desvantagem deste design: Tempo de recuperação mais longo do que o design de reposição quente.

  • Reimplantar em caso de desastre: uma região primária e uma ou mais regiões secundárias. Somente a rede necessária é implantada na região secundária. Os operadores devem executar scripts de provisionamento na região secundária para fazer failover das cargas de trabalho. Esse design é conhecido como reimplantação em caso de desastre.

    • Rede: use o roteamento global prioritário .

    • Replicação e consistência de dados: implante novas instâncias de banco de dados e reidratar os dados dos backups.

    • Vantagem deste design: Custos operacionais mais baixos.

    • Desvantagem deste design: Maior tempo de recuperação.

  • Vantagens comuns dos projetos ativos-passivos: Custos operacionais mais baixos e menos carga de gerenciamento diário do que os projetos ativos-ativos. Não há necessidade de sincronizar o estado do aplicativo.

  • Desvantagens comuns de projetos ativos-passivos: Processo de recuperação mais longo e complexo. Maior probabilidade de precisar de intervenção manual para um failover bem-sucedido.

Observação

Independentemente do design de alta disponibilidade, lembre-se de configurar a redundância para serviços de suporte, como infraestrutura do Azure DevOps, jump boxes, monitoramento e qualquer outro serviço crítico necessário para administrar a carga de trabalho.

Facilitação do Azure

  • O Azure Front Door combina a funcionalidade de roteamento global do Gerenciador de Tráfego do Azure com um sistema de entrega de conteúdo e firewall de aplicativo Web para ajudá-lo a gerenciar sua carga de trabalho de alta disponibilidade.

  • O Azure Cosmos DB é uma plataforma de banco de dados NoSQL distribuída globalmente que pode ajudá-lo a executar um ambiente ativo-ativo e minimizar a chance de tempo de inatividade quando ocorre uma interrupção regional.

Lista de verificação de confiabilidade

Consulte o conjunto completo de recomendações.