Fiabilidade no Azure Operator Nexus
Importante
Esta funcionalidade está atualmente em pré-visualização. As pré-visualizações são disponibilizadas a si na condição de concordar com os termos suplementares de utilização.
Este artigo descreve o suporte de confiabilidade no Azure Operator Nexus e aborda a resiliência intrarregional com zonas de disponibilidade. Para obter uma visão geral mais detalhada da confiabilidade no Azure, consulte Confiabilidade do Azure.
Suporte à zona de disponibilidade
As zonas de disponibilidade são grupos fisicamente separados de datacenters dentro de cada região do Azure. Quando uma zona falha, os serviços podem fazer failover para uma das zonas restantes.
Para obter mais informações sobre zonas de disponibilidade no Azure, consulte O que são zonas de disponibilidade?.
O Azure Operator Nexus oferece implantações redundantes de zona de disponibilidade por padrão. Os componentes do Nexus do operador, como o Gerenciador de Cluster e o Controlador de Malha de Rede, são implantados em um cluster do Serviço Kubernetes do Azure (AKS) habilitado com zonas de disponibilidade. Outras dependências de serviço, como Serviço de Conta de Armazenamento e KeyVault também são configuradas com redundância de zona de disponibilidade.
Nota
A instância local do Operator Nexus implementa um design de vários racks que fornece redundância física em todos os níveis da pilha. Cada rack é projetado como um domínio de falha ou zona Nexus. As cargas de trabalho do cliente podem ser implantadas em vários racks/nós, essencialmente fornecendo uma experiência de zona de multidisponibilidade semelhante.
Experiência de zona de disponibilidade do Azure
Em um cenário de zona de disponibilidade inativa, as chamadas de API no cluster e nos provedores de recursos continuariam a funcionar sem interrupção. Não haveria impacto nas cargas de trabalho de locatário local atualmente em execução ou na capacidade de criar novas cargas de trabalho de locatário. Além disso, nenhuma perda de dados deve ocorrer, pois a resiliência do Nexo do Operador e de outros tipos de recursos é assegurada.
Suporte a failover da zona de disponibilidade do Azure
No caso de uma falha na zona de disponibilidade, a reconexão com outra zona de disponibilidade do Azure é automática e não requer interação do usuário.
Disponibilidade em implantações de instância do Nexus do Operador
Garantir a disponibilidade nas implantações de carga de trabalho do Azure Operator Nexus é uma responsabilidade dividida. Como indicado na seção anterior, os recursos baseados no Operator Nexus AKS são implantados com redundância de zona de disponibilidade. Nesta seção, consideramos as práticas recomendadas para a disponibilidade da carga de trabalho local.
Em geral, as metas de disponibilidade são alcançadas por meio de implantações locais e com redundância geográfica.
Nexus zone: um mecanismo para redundância de carga de trabalho local
As instâncias locais do Operator Nexus consistem em um design de vários racks que fornece redundância física em todos os níveis da pilha. Cada rack é designado como um domínio de falha e, portanto, pode ser configurado como uma zona Nexus onde essas zonas podem e, de preferência, devem ser usadas para implantações de carga de trabalho redundante local.
Exemplo Nexus: um mecanismo para redundância de carga de trabalho geográfica
As instâncias locais do Nexus são hospedadas em uma região específica do Azure. Como dito anteriormente, os serviços do Azure usados e os recursos do Nexus são implantados em várias zonas de disponibilidade dessa região do Azure.
As instâncias do Nexus que estão distribuídas geograficamente, ou seja, não estão no mesmo data center do operador (possivelmente nem mesmo na mesma região geográfica) e hospedadas em diferentes regiões do Azure devem ser utilizadas para implantar de forma redundante cargas de trabalho para redundância geográfica.
Aviso
Implantar cargas de trabalho em, digamos, duas instâncias do Nexus distribuídas geograficamente é insuficiente para alcançar redundância geográfica verdadeira, a menos que as instâncias do Nexus com redundância geográfica estejam hospedadas em diferentes regiões do Azure.
No caso improvável de uma região do Azure ficar indisponível, os serviços do Azure, bem como os recursos do Nexus nessa região, também ficarão indisponíveis. Embora isso não afete as cargas de trabalho em execução, impede recursos como iniciar novas cargas de trabalho, análises, etc.
Várias instâncias do Nexus na mesma localização geográfica
Há cenários em que várias instâncias do Nexus precisam ser implantadas na mesma localização geográfica. A redundância geográfica da carga de trabalho obviamente não é alcançada pela implantação de cargas de trabalho em instâncias do Nexus na mesma localização geográfica.
Uma consideração no projeto para confiabilidade, além da disponibilidade, é a resiliência e a capacidade de recuperação de falhas. A recuperação de falhas e a capacidade de cumprir os objetivos de tempo de recuperação exigem que limitemos o raio de "explosão" ou impacto das falhas. No cenário em que várias instâncias do Nexus são implantadas na mesma localização geográfica, o design resiliente exige que essas instâncias do Nexus sejam hospedadas em diferentes regiões do Azure. Assim, quando uma região do Azure falha, seu impacto é limitado a uma instância do Nexus.
Próximos passos
Guia do Centro de Arquitetura do Azure sobre zonas de disponibilidade.