Sdílet prostřednictvím


Spolehlivost v Azure Operator Nexus

Důležité

Tato funkce je aktuálně dostupná jako ukázková verze. Verze Preview vám zpřístupňujeme pod podmínkou, že budete souhlasit s dodatečnými podmínkami použití.

Tento článek popisuje podporu spolehlivosti ve službě Azure Operator Nexus a zabývá se vnitřní odolností zón dostupnosti. Podrobnější přehled spolehlivosti v Azure najdete v tématu Spolehlivost Azure.

Podpora zón dostupnosti

Zóny dostupnosti jsou fyzicky oddělené skupiny datacenter v rámci každé oblasti Azure. Když jedna zóna selže, můžou služby převzít služby při selhání jedné ze zbývajících zón.

Další informace o zónách dostupnosti v Azure najdete v tématu Co jsou zóny dostupnosti?.

Azure Operator Nexus ve výchozím nastavení nabízí zónově redundantní nasazení dostupnosti. Na clusteru Azure Kubernetes Service (AKS) s povolenými zónami dostupnosti se nasazují komponenty Operátor Nexus, jako je Cluster Manager a Síťový adaptér. Další závislosti služeb, jako je služba účtu úložiště a služba KeyVault, se také konfigurují s redundancí zón dostupnosti.

Poznámka:

Operátor Nexus On-Premises instance implementuje návrh s více racky, který poskytuje fyzickou redundanci na všech úrovních zásobníku. Každý rack je navržený jako doména selhání nebo zóna Nexus. Úlohy zákazníků je možné nasadit napříč několika racky nebo uzly, což v podstatě poskytuje podobné prostředí zóny s více dostupnostmi.

Prostředí pro snížení dostupnosti Azure

Ve scénáři se zónou dostupnosti by volání rozhraní API pro cluster a poskytovatele prostředků pokračovala bez přerušení. Na aktuálně spuštěné úlohy místních tenantů ani na možnost vytváření nových úloh tenantů by to nemělo žádný vliv. Navíc by neměla dojít ke ztrátě dat, protože je zajištěna odolnost operátora Nexus a dalších typů prostředků.

Podpora převzetí služeb při selhání zóny dostupnosti Azure

V případě selhání zóny dostupnosti je opětovné připojení k jiné zóně dostupnosti Azure automatické a nevyžaduje žádnou interakci od uživatele.

Dostupnost nasazení instancí Operator Nexus

Zajištění dostupnosti v nasazení úloh Azure Operator Nexus je rozdělená odpovědnost. Jak je uvedeno v předchozí části, prostředky založené na operátoru Nexus AKS se nasazují s redundancí zóny dostupnosti. V této části se podíváme na osvědčené postupy pro dostupnost místních úloh.

Obecně platí, že cíle dostupnosti se dosahuje prostřednictvím místních a geograficky redundantních nasazení.

Zóna Nexus: mechanismus pro redundanci místních úloh

Operátor Nexus místní instance se skládá z návrhu s více racky, který poskytuje fyzickou redundanci na všech úrovních zásobníku. Každý rack je určen jako doména selhání, a proto je možné ho nakonfigurovat jako zónu Nexus, kde tyto zóny mohou a pokud možno použít pro místní redundantní nasazení úloh.

Instance Nexus: mechanismus pro redundanci geografických úloh

Místní instance Nexus jsou hostované v konkrétní oblasti Azure. Jak jsme uvedli dříve, použité služby Azure a prostředky Nexus se nasazují v několika zónách dostupnosti dané oblasti Azure.

Instance nexusu, které jsou geograficky distribuované, tj. ne ve stejném datovém centru operátora (pravděpodobně ani ve stejné geografické oblasti) a hostované v různých oblastech Azure by se měly využít k redundantnímu nasazení úloh pro geografickou redundanci.

Upozorňující

Nasazení úloh do dvou geograficky distribuovaných instancí Nexus není dostatečné k dosažení skutečné geografické redundance, pokud nejsou geograficky redundantní instance Nexus hostované v různých oblastech Azure.

V nepravděpodobném případě, že oblast Azure přestane být k dispozici, služby Azure a prostředky Nexus v této oblasti se také stanou nedostupnými. I když to nemá vliv na spouštění úloh, brání možnostem, jako je spouštění nových úloh, analýzy atd.

Několik instancí Nexus ve stejném geografickém umístění

Existují scénáře, kdy je potřeba nasadit více instancí Nexus ve stejném zeměpisném umístění. Geografická redundance úloh samozřejmě není dosaženo nasazením úloh do instancí Nexus ve stejné geografické lokalitě.

Jednou z aspektů při navrhování pro spolehlivost, kromě dostupnosti, je odolnost a schopnost zotavit se z chyb. Obnovení ze selhání a schopnost splnit časové cíle obnovení vyžaduje, abychom omezili "výbuch" nebo dopad na poloměr selhání. Ve scénáři, ve kterém je ve stejném geografickém umístění nasazeno více instancí Nexus, vyžaduje odolný návrh, který tyto instance Nexus hostují v různých oblastech Azure. Pokud tedy oblast Azure selže, její dopad je omezený na jednu instanci Nexus.

Další kroky