Confiabilidade no treinamento da comunidade Microsoft
O Microsoft Community Training é uma solução baseada em nuvem baseada no Azure que pode oferecer programas de treinamento em larga escala e de grande alcance com alta qualidade e eficiência. Com o Community Training, organizações de todos os tamanhos e tipos podem executar programas de treinamento em larga escala para suas comunidades internas e externas. As comunidades podem incluir trabalhadores da linha de frente, forças de trabalho estendidas, um ecossistema de parceiros, uma rede de voluntários e beneficiários do programa.
Este artigo descreve o suporte à confiabilidade no Treinamento da Comunidade e aborda a resiliência regional com zonas de disponibilidade, recuperação de desastres e continuidade de negócios. Para obter uma visão geral mais detalhada de um princípio de confiabilidade no Azure, consulte Confiabilidade do Azure.
Suporte à zona de disponibilidade
As zonas de disponibilidade são grupos fisicamente separados de datacenters dentro de cada região do Azure. Quando uma zona falha, os serviços podem fazer failover para uma das zonas restantes.
Para obter mais informações sobre zonas de disponibilidade no Azure, consulte O que são zonas de disponibilidade?.
O Treinamento da Comunidade usa zonas de disponibilidade do Azure para fornecer alta disponibilidade e tolerância a falhas em uma região do Azure. O treinamento da comunidade oferece suporte à zona de disponibilidade de controle e plano de dados:
O plano de controle é redundante de zona nas regiões primárias de disponibilidade.
O plano de dados pode ser zonal ou redundante por zona, dependendo do que você escolher para suas necessidades. No entanto, é altamente recomendável que você escolha uma implantação com redundância de zona para evitar perda de dados e manter a disponibilidade do serviço durante uma interrupção de zona.
Pré-requisitos
As zonas de disponibilidade são suportadas para as seguintes SKUs de treinamento da comunidade:
- Standard (menor escala de usuários)
- Premium (alta escala de usuários)
A Formação Comunitária só é suportada em regiões emparelhadas. Cada região secundária é implantada com uma configuração zonal. A tabela a seguir mostra todas as regiões que oferecem suporte a zonas de disponibilidade para o Treinamento da Comunidade, juntamente com sua região emparelhada.
Região Primária | Região emparelhada |
---|---|
UKSouth | UKWest |
AustraliaEast | AustraliaSoutheast |
EastUS | WestUS |
EastUS2 | CentralUS |
Norte da Europa | Europa Ocidental |
WestUS3 | EastUS |
SuéciaCentral | SuéciaSul |
Suporte a failover zonal
O Treinamento da Comunidade usa muitos serviços de dependência do Azure, como o Serviço de Aplicativo e o Azure SQL. Quando você escolhe uma implantação redundante de zona, o Treinamento da Comunidade também cria ofertas redundantes zonais desses recursos de serviço subjacentes do Azure. Se uma zona falhar, todos os recursos, incluindo recursos de dependência, farão failover para uma das zonas saudáveis.
Criar um recurso com a zona de disponibilidade ativada
O Community Training fornece configuração para zonas de disponibilidade somente no momento da criação da instância. Se desejar alterar a configuração da zona de disponibilidade após a criação da instância, será necessário criar uma nova instância.
Experiência de zoneamento
Zonal. Durante uma interrupção em toda a zona, o Treinamento da Comunidade pode ter interrupção total ou parcial do serviço. A extensão em que ele está disponível depende de vários fatores, como se todo o datacenter está inativo ou se um serviço de dependência específico não está mais disponível nessa zona.
Zona redundante. Durante uma interrupção em toda a zona, você não deve sofrer nenhum impacto nos recursos provisionados. No entanto, você deve estar preparado para uma breve interrupção na comunicação com esses recursos. Em uma situação de inatividade de zona, os clientes normalmente recebem códigos de erro 409, bem como tentativas lógicas de repetição para restabelecer conexões em intervalos apropriados. Novas solicitações são direcionadas para nós íntegros com impacto zero no usuário. Durante interrupções em toda a zona, os usuários podem criar novos recursos e dimensionar com sucesso os existentes.
Recuperação após desastre e continuidade de negócio
A recuperação de desastres (DR) consiste na recuperação de eventos de alto impacto, como desastres naturais ou implantações com falha que resultam em tempo de inatividade e perda de dados. Independentemente da causa, a melhor solução para um desastre é um plano de DR bem definido e testado e um design de aplicativo que suporte ativamente a DR. Antes de começar a pensar em criar seu plano de recuperação de desastres, consulte Recomendações para projetar uma estratégia de recuperação de desastres.
Quando se trata de DR, a Microsoft usa o modelo de responsabilidade compartilhada. Em um modelo de responsabilidade compartilhada, a Microsoft garante que a infraestrutura de linha de base e os serviços da plataforma estejam disponíveis. Ao mesmo tempo, muitos serviços do Azure não replicam dados automaticamente ou recorrem de uma região com falha para replicação cruzada para outra região habilitada. Para esses serviços, você é responsável por configurar um plano de recuperação de desastres que funcione para sua carga de trabalho. A maioria dos serviços executados nas ofertas de plataforma como serviço (PaaS) do Azure fornecem recursos e orientação para dar suporte à DR e você pode usar recursos específicos do serviço para dar suporte à recuperação rápida para ajudar a desenvolver seu plano de DR.
A equipe de Treinamento da Comunidade Microsoft gerencia todo o procedimento de recuperação de desastres para o Treinamento da Comunidade. A recuperação de desastres não é ativa-ativa ou passiva ativa, mas baseia-se na recuperação do backup mais recente disponível dos serviços do Azure. A equipe de treinamento da comunidade cria manualmente todos os recursos na região emparelhada a partir do backup de dados.
Nota
A recuperação de desastres do treinamento comunitário só é suportada em regiões emparelhadas.
Recuperação de desastres em geografia de várias regiões
Em um desastre regional, o plano de controle é manualmente transferido para a região emparelhada. Você deve esperar alguma degradação do serviço no tempo antes da conclusão do failover. Após o failover, somente operações somente leitura são suportadas até que a região de desastre esteja online novamente. O serviço é manualmente retornado à região original assim que estiver online novamente e todas as operações forem retomadas. Espera-se que o Recovery Point Objetive (RPO) seja de 10 minutos; Recovery Time Objetive (RTO), 24 horas.
Para o plano de dados, o Community Training oferece recuperação de desastres gerenciada pela Microsoft. Para usar a recuperação de desastres gerenciada, você precisa habilitar a recuperação de desastres durante a criação da instância de Treinamento da Comunidade no Azure. Depois de habilitar a recuperação de desastres, a Microsoft mantém o backup do armazenamento e do banco de dados na região emparelhada. Espera-se que o Recovery Point Objetive (RPO) seja de 12 horas; Recovery Time Objetive (RTO), 48 horas.
Nota
O RTO depende do tamanho do banco de dados e do armazenamento, da latência entre a região emparelhada. Capacidade de banco de dados ou VM de armazenamento (SKU). O RPO depende de recursos subjacentes do Azure, como o SQL do Azure e o armazenamento do Azure. Para obter mais informações sobre RTO e RPO, consulte Visão geral da recuperação de desastres.
Deteção, notificação e gerenciamento de interrupções
Quando uma verificação de integridade do Treinamento da Comunidade deteta uma interrupção de qualquer serviço e em qualquer região, a Microsoft solicita seu consentimento para failover para a região emparelhada. A Microsoft informa quais recursos estão disponíveis durante o procedimento de recuperação de desastres. Assim que a Microsoft receber seu consentimento, a equipe de treinamento da comunidade poderá iniciar o procedimento de recuperação de desastres.
Importante
Os alunos não poderão consumir recursos de áudio/vídeo até que a região principal esteja operacional. É recomendável evitar operações de upload de mídia até que o site principal esteja operacional.
Capacidade e resiliência proativa de recuperação de desastres
A Microsoft e seus clientes operam sob o modelo de responsabilidade compartilhada. Quando qualquer região estiver inativa, não apenas a instância de Treinamento da Comunidade será migrada para a região emparelhada, mas também todas as cargas de trabalho de produtos e clientes serão migradas para a região emparelhada. Esse procedimento pode causar uma escassez de recursos na região emparelhada ou no datacenter. Como resultado, a disponibilidade de recuperação de desastres depende da capacidade disponível dos recursos subjacentes do Azure.