Confiabilidade no Treinamento da Comunidade da Microsoft
O Treinamento da Comunidade da Microsoft é uma solução baseada em nuvem do Azure que pode fornecer programas de treinamento de grande escala e de grande expansão com alta qualidade e eficiência. Com o Treinamento da Comunidade, organizações de todos os tamanhos e tipos podem executar programas de treinamento em larga escala para suas comunidades internas e externas. As comunidades podem incluir trabalhadores de linha de frente, forças de trabalho estendidas, um ecossistema de parceiros, uma rede de voluntários e beneficiários do programa.
Este artigo descreve o suporte à confiabilidade no Treinamento da Comunidade e aborda a resiliência regional com zonas de disponibilidade e recuperação de desastres e continuidade dos negócios. Para obter uma visão geral mais detalhada de um princípio de confiabilidade no Azure, consulte confiabilidade do Azure.
Suporte à zona de disponibilidade
As zonas de disponibilidade são grupos de datacenters fisicamente separados em cada região do Azure. Quando uma zona falha, os serviços podem fazer failover para uma das zonas restantes.
Para obter mais informações sobre as zonas de disponibilidade no Azure, confira O que são zonas de disponibilidade?.
O Treinamento da Comunidade usa zonas de disponibilidade do Azure para fornecer alta disponibilidade e tolerância a falhas em uma região do Azure. O treinamento da comunidade oferece suporte à zona de disponibilidade do plano de dados e controle:
O plano de controle é redundante em zona nas regiões primárias de disponibilidade.
O plano de dados pode ser zonal ou com redundância de zona, dependendo do que você escolher para suas necessidades. No entanto, é altamente recomendável que você escolha uma implantação com redundância de zona para evitar perda de dados e manter a disponibilidade do serviço durante uma interrupção de zona.
Pré-requisitos
Há suporte para zonas de disponibilidade para as seguintes SKUs de Treinamento da Comunidade:
- Standard (menor escala de usuários)
- Premium (alta escala de usuários)
O Treinamento da Comunidade só tem suporte em regiões emparelhadas. Cada região secundária é implantada com uma configuração zonal. A tabela a seguir mostra todas as regiões que dão suporte a zonas de disponibilidade para Treinamento da Comunidade, juntamente com sua região emparelhada.
Região Primária | Região emparelhada |
---|---|
UKSouth | UKWest |
AustraliaEast | AustraliaSoutheast |
EastUS | WestUS |
EastUS2 | CentralUS |
NorthEurope | WestEurope |
WestUS3 | EastUS |
SwedenCentral | SwedenSouth |
Suporte a failover zonal
O Treinamento da Comunidade usa muitos serviços do Azure de dependência, como o Serviço de Aplicativo e o SQL do Azure. Quando você escolhe uma implantação com redundância de zona, o Treinamento da Comunidade também cria ofertas com redundância zonal daqueles recursos de serviço subjacentes do Azure. Se uma zona falhar, todos os recursos, incluindo recursos de dependência, falharão em uma das zonas íntegras.
Criar um recurso com a zona de disponibilidade habilitada
O Treinamento da Comunidade fornece configuração para zonas de disponibilidade somente no momento da criação da instância. Se você quiser alterar a configuração da zona de disponibilidade após a criação da instância, precisará criar uma nova instância.
Experiência de zona inoperante
Zonal. Durante uma interrupção em toda a zona, o Treinamento da Comunidade pode ter uma interrupção completa ou parcial do serviço. A extensão da sua disponibilidade depende de vários fatores, como se todo o datacenter está inativo ou se um serviço de dependência específico não está mais disponível nessa zona.
Redundância de zona. Durante uma interrupção em toda a zona, você não deve ter nenhum impacto sobre os recursos provisionados. No entanto, você deve estar preparado para uma breve interrupção na comunicação com esses recursos. Em uma situação de zona inoperante, os clientes normalmente recebem 409 códigos de erro, bem como tentativas lógicas de repetição para restabelecer conexões em intervalos apropriados. Novas solicitações são direcionadas a nós íntegros sem impacto sobre o usuário. Durante interrupções em toda a zona, os usuários podem criar novos recursos e dimensionar com êxito os existentes.
Recuperação de desastre e continuidade dos negócios
A DR (recuperação de desastre) trata da recuperação após eventos de alto impacto, como desastres naturais ou implantações com falha, que resultam em tempo de inatividade e perda de dados. Seja qual for a causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que dê suporte ativo à DR. Antes de começar a pensar em criar seu plano de recuperação de desastre, confira Recomendações para criar uma estratégia de recuperação de desastre.
Quando o assunto é DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços de plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente nem retornam de uma região com falha para a replicação cruzada em outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastres que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de PaaS (plataforma como serviço) do Azure fornece recursos e diretrizes para dar suporte à DR. Além disso, você pode usar recursos específicos do serviço para dar suporte a uma recuperação rápida, a fim de ajudar a desenvolver seu plano de DR.
A equipe de Treinamento da Comunidade da Microsoft gerencia todo o procedimento de recuperação de desastres para o Treinamento da Comunidade. A recuperação de desastre não é ativa ou ativa passiva, mas se baseia na recuperação do backup disponível mais recente dos serviços do Azure. A equipe de Treinamento da Comunidade cria manualmente todos os recursos na região emparelhada a partir do backup de dados.
Observação
A recuperação de desastre do Treinamento da Comunidade só tem suporte em regiões emparelhadas.
Recuperação de desastre na geografia de várias regiões
Em um desastre regional, o painel de controle é manualmente reprovado na região emparelhada. Você deve esperar alguma degradação de serviço no tempo antes da conclusão do failover. Após o failover, somente as operações somente leitura têm suporte até que a região de desastre esteja online novamente. O serviço faz o failback manual para a região original quando ele está online novamente e todas as operações são retomadas. O RPO (Objetivo de Ponto de Recuperação) deve ser de 10 minutos; RTO (Objetivo de Tempo de Recuperação), 24 horas.
Para o painel de dados, o Treinamento da Comunidade oferece recuperação de desastre gerenciada pela Microsoft. Para usar a recuperação de desastre gerenciada, você precisa habilitar a recuperação de desastre durante a criação da instância de Treinamento da Comunidade no Azure. Depois de habilitar a recuperação de desastre, a Microsoft mantém o backup do armazenamento e do banco de dados na região emparelhada. O RPO (Objetivo de Ponto de Recuperação) deve ser de 12 horas; RTO (Objetivo de Tempo de Recuperação), 48 horas.
Observação
O RTO depende do tamanho do banco de dados e do armazenamento, latência entre a região emparelhada. SKU (capacidade de VM de armazenamento ou banco de dados). O RPO depende dos recursos subjacentes do Azure, como SQL do Azure e armazenamento do Azure. Para obter mais informações sobre RTO e RPO, consulte Visão geral da Recuperação de Desastre.
Detecção, notificação e gerenciamento de interrupção
Quando uma verificação de integridade do Treinamento da Comunidade detecta uma interrupção de qualquer serviço e, em qualquer região, a Microsoft solicita seu consentimento para o failover para a região emparelhada. A Microsoft informa quais recursos estão disponíveis durante o procedimento de recuperação de desastre. Depois que a Microsoft receber seu consentimento, a equipe de Treinamento da Comunidade poderá iniciar o procedimento de recuperação de desastre.
Importante
Os aprendizes não poderão consumir recursos de áudio/vídeo até que a região primária esteja operacional. É recomendável evitar operações de carregamento de mídia até que o site primário esteja operacional.
Capacidade e resiliência proativa de recuperação de desastre
A Microsoft e seus clientes operam ao abrigo do modelo de responsabilidade compartilhada. Depois que qualquer região estiver inoperante, não apenas a instância de Treinamento da Comunidade será migrada para a região emparelhada, mas também todas as cargas de trabalho de produtos e clientes também serão migradas para a região emparelhada. Esse procedimento pode causar uma escassez de recursos na região emparelhada ou no datacenter. Como resultado, a disponibilidade de recuperação de desastre depende da capacidade disponível dos recursos subjacentes do Azure.