Spolehlivost ve službě Azure HDInsight
Tento článek popisuje podporu spolehlivosti ve službě Azure HDInsight a zabývá se zónami dostupnosti a obnovením mezi oblastmi a provozní kontinuitou. Podrobnější přehled spolehlivosti v Azure najdete v tématu Spolehlivost Azure.
Podpora zón dostupnosti
Zóny dostupnosti jsou fyzicky oddělené skupiny datacenter v rámci každé oblasti Azure. Když jedna zóna selže, můžou služby převzít služby při selhání jedné ze zbývajících zón.
Další informace o zónách dostupnosti v Azure najdete v tématu Co jsou zóny dostupnosti?.
Azure HDInsight podporuje konfiguraci zónového nasazení. Uzly clusteru Azure HDInsight se umístí do jedné zóny, kterou vyberete ve vybrané oblasti. Zónový cluster HDInsight je izolovaný od jakýchkoli výpadků, ke kterým dochází v jiných zónách. Pokud ale výpadek ovlivní konkrétní zónu zvolenou pro cluster HDInsight, cluster nebude dostupný. Tento model nasazení poskytuje levné síťové připojení s nízkou latencí v rámci clusteru. Replikace tohoto modelu nasazení do několika zón dostupnosti může poskytnout vyšší úroveň dostupnosti, aby byla zajištěna ochrana před selháním hardwaru.
Důležité
U nasazení, kde uživatelé nezadávají konkrétní zónu, nejsou typy uzlů odolné vůči zónám a můžou během výpadku v jakékoli zóně v dané oblasti dojít k výpadku.
Požadavky
Zóny dostupnosti se podporují jenom pro clustery vytvořené po 15. červnu 2023. Po vytvoření clusteru není možné aktualizovat nastavení zóny dostupnosti. Nemůžete také aktualizovat existující cluster se zónou dostupnosti, aby používal zóny dostupnosti.
Clustery musí být vytvořeny ve vlastní virtuální síti.
Potřebujete použít vlastní databázi SQL pro databázi Ambari a externí metastore, jako je metastor Hive, abyste mohli tyto databáze nakonfigurovat ve stejné zóně dostupnosti.
Clustery HDInsight se musí vytvořit s možností zóny dostupnosti v jedné z následujících oblastí:
- Austrálie – východ
- Brazílie – jih
- Střední Kanada
- Střední USA
- East US
- USA – východ 2
- Francie – střed
- Německo – středozápad
- Japonsko – východ
- Jižní Korea – střed
- Severní Evropa
- Střední Katar
- Southeast Asia
- Středojižní USA
- Velká Británie – jih
- US Gov – Virginie
- Západní Evropa
- Západní USA 2
Vytvoření clusteru HDInsight pomocí zóny dostupnosti
Pomocí šablony Azure Resource Manageru (ARM) můžete spustit cluster HDInsight do zadané zóny dostupnosti.
V části prostředky je potřeba přidat oddíl zóny a určit, do které zóny dostupnosti chcete tento cluster nasadit.
"resources": [
{
"type": "Microsoft.HDInsight/clusters",
"apiVersion": "2021-06-01",
"name": "[parameters('cluster name')]",
"location": "East US 2",
"zones": [
"1"
],
}
]
Ověření uzlů v rámci jedné zóny dostupnosti napříč zónami
Až bude cluster HDInsight připravený, můžete zkontrolovat umístění a zjistit, ve které zóně dostupnosti jsou nasazené.
Získání odpovědi rozhraní API:
[
{
"location": "East US 2",
"zones": [
"1"
],
}
]
Vertikální navýšení kapacity clusteru
Cluster HDInsight můžete vertikálně navýšit s více pracovními uzly. Nově přidané pracovní uzly budou umístěny ve stejné zóně dostupnosti tohoto clusteru.
Migrace zóny dostupnosti
Clustery Azure HDInsight v současné době nepodporují místní migraci existujících instancí clusteru do podpory zóny dostupnosti. Můžete se ale rozhodnout cluster znovu vytvořit a během vytváření clusteru zvolit jinou zónu dostupnosti nebo oblast. Sekundární pohotovostní cluster v jiné oblasti a jinou zónu dostupnosti je možné použít ve scénářích zotavení po havárii.
Prostředí pro zónu dolů
Když dojde k výpadku zóny dostupnosti:
- Do tohoto clusteru nemůžete ssh.
- Tento cluster nejde odstranit, vertikálně navýšit nebo snížit kapacitu.
- Úlohy nemůžete odesílat ani zobrazit historii úloh.
- Stále můžete odeslat novou žádost o vytvoření clusteru v jiné oblasti.
Zotavení po havárii napříč oblastmi a provozní kontinuita
Zotavení po havárii (DR) se týká zotavení z událostí s vysokým dopadem, jako jsou přírodní katastrofy nebo neúspěšná nasazení, která vedou k výpadkům a ztrátě dat. Bez ohledu na příčinu je nejlepším řešením havárie dobře definovaný a otestovaný plán zotavení po havárii a návrh aplikace, který aktivně podporuje zotavení po havárii. Než začnete přemýšlet o vytvoření plánu zotavení po havárii, přečtěte si doporučení pro návrh strategie zotavení po havárii.
Pokud jde o zotavení po havárii, Microsoft používá model sdílené odpovědnosti. V modelu sdílené odpovědnosti Microsoft zajišťuje, aby byly dostupné základní služby infrastruktury a platformy. Současně mnoho služeb Azure automaticky nereplikuje data nebo se vrátí z oblasti, která selhala, aby se křížově replikovala do jiné povolené oblasti. Za tyto služby zodpovídáte za nastavení plánu zotavení po havárii, který funguje pro vaši úlohu. Většina služeb, které běží na nabídkách PaaS (Platforma jako služba) Azure, poskytuje funkce a pokyny pro podporu zotavení po havárii a pomocí funkcí specifických pro služby můžete podporovat rychlé obnovení , které vám pomůže s vývojem plánu zotavení po havárii.
Clustery Azure HDInsight závisí na mnoha službách Azure, jako jsou úložiště, databáze, Active Directory, Doména služby Active Directory Services, sítě a Key Vault. Dobře navržená, vysoce dostupná a analytická aplikace odolná proti chybám by měla být navržena s dostatečnou redundancí, aby v jedné nebo více těchto službách vydržela regionální nebo místní přerušení. V této části najdete přehled osvědčených postupů, dostupnosti jedné a více oblastí a možností optimalizace pro plánování kontinuity podnikových procesů.
Zotavení po havárii v geografické oblasti s více oblastmi
Zlepšení kontinuity podnikových procesů s využitím zotavení po havárii napříč oblastmi vyžaduje návrh architektury s vyšší složitostí a vyššími náklady. Následující tabulky podrobně uvádějí některé technické oblasti, které můžou zvýšit celkové náklady na vlastnictví.
Optimalizace nákladů
Plocha | Příčina eskalace nákladů | Strategie optimalizace |
---|---|---|
Úložiště dat | Duplikování primárních dat nebo tabulek v sekundární oblasti | Replikace pouze kurátorovaných dat |
Výchozí přenos dat | Odchozí přenosy dat mezi oblastmi mají cenu. Projděte si pokyny k cenám šířky pásma. | Replikace pouze kurátorovaných dat za účelem snížení výchozích nároků na oblast |
Výpočetní prostředky clusteru | Další cluster HDInsight / s v sekundární oblasti | Pomocí automatizovaných skriptů nasaďte sekundární výpočetní prostředky po primárním selhání. Automatické škálování použijte k zachování minimální velikosti sekundárního clusteru. Používejte levnější skladové položky virtuálních počítačů. V oblastech, ve kterých se můžou skladové položky virtuálních počítačů zlevnit, se můžou lišit. |
Ověřování | Scénáře s více uživateli v sekundární oblasti účtují další nastavení služby Microsoft Entra Domain Services. | Vyhněte se nastavení více uživatelů v sekundární oblasti. |
Optimalizace složitosti
Plocha | Příčina eskalace složitosti | Strategie optimalizace |
---|---|---|
Vzory čtení zápisu | Vyžadování povolení primárního i sekundárního čtení a zápisu | Návrh sekundárního jen pro čtení |
Nula RPO a RTO | Vyžadování nulové ztráty dat (RPO=0) a nulové výpadky (RTO=0) | Navrhujte RPO a RTO způsoby, abyste snížili počet komponent, které potřebují převzít služby při selhání. Další informace o cílech obnovení (RTO) a RPO najdete v tématu Cíle obnovení. |
Obchodní funkce | Vyžadování úplné obchodní funkce primárního v sekundárním | Vyhodnoťte, jestli můžete spustit s minimální minimální kritickou podmnožinou obchodních funkcí v sekundární oblasti. |
Připojení | Vyžadování všech nadřazených a podřízených systémů z primárního systému pro připojení k sekundárnímu | Omezte sekundární připojení na holou minimální kritickou podmnožinu. |
Při vytváření plánu zotavení po havárii ve více oblastech zvažte následující doporučení:
Určete minimální obchodní funkce, které potřebujete, pokud dojde k havárii a proč. Vyhodnoťte například, jestli potřebujete funkce převzetí služeb při selhání pro vrstvu transformace dat (zobrazená žlutě) a vrstvu obsluhující data (zobrazenou modře), nebo pokud potřebujete převzetí služeb při selhání jenom pro vrstvu datové služby.
Segmentujte clustery na základě úloh, životního cyklu vývoje a oddělení. Když máte více clusterů, sníží se pravděpodobnost jednoho velkého selhání ovlivňujícího více různých obchodních procesů.
Nastavení sekundárních oblastí jen pro čtení Oblasti převzetí služeb při selhání s funkcemi čtení i zápisu můžou vést ke složitým architekturám.
Přechodné clustery se snadněji spravují, když dojde k havárii. Navrhněte úlohy tak, aby bylo možné clustery cyklovat a v clusterech se neudržuje žádný stav.
Úlohy se často nedokončí, pokud dojde k havárii a je potřeba je restartovat v nové oblasti. Navrhněte úlohy tak, aby byly idempotentní v přírodě.
Použijte automatizaci během nasazení clusteru a ujistěte se, že nastavení konfigurace clusteru je co nejvíce skriptované, aby se zajistilo rychlé a plně automatizované nasazení, pokud dojde k havárii.
Detekce výpadků, oznámení a správa
Pomocí monitorovacích nástrojů Azure ve službě HDInsight můžete detekovat neobvyklé chování v clusteru a nastavit odpovídající oznámení výstrah. Můžete nasadit předem nakonfigurovaná řešení pro správu specifické pro cluster HDInsight, která shromažďují důležité metriky výkonu konkrétního typu clusteru. Další informace najdete v tématu Monitorování Azure pro HDInsight.
Přihlaste se k odběru upozornění služby Azure Health, abyste dostávali upozornění na problémy se službami, plánovanou údržbu, stav a poradce pro zabezpečení předplatného, služby nebo oblasti. Oznámení o stavu, která zahrnují příčinu problému a resolute ETA, vám pomůžou lépe spouštět převzetí služeb při selhání a navrácení služeb po obnovení. Další informace najdete v dokumentaci ke službě Azure Service Health.
Zotavení po havárii v geografické oblasti s jednou oblastí
Každá komponenta v základním systému HDInsight má vlastní mechanismy odolnosti proti chybám v jedné oblasti. Mějte na paměti, že ne vždy trvá katastrofická událost, aby ovlivnila obchodní funkce. Servisní incidenty v jedné nebo více následujících službách v jedné oblasti můžou také vést ke ztrátě očekávaných obchodních funkcí.
Výpočetní prostředky (virtuální počítače): Cluster Azure HDInsight HDInsight nabízí smlouvu SLA o dostupnosti 99,9 %. K zajištění vysoké dostupnosti v jednom nasazení je hdInsight doprovázeno mnoha službami, které jsou ve výchozím nastavení v režimu vysoké dostupnosti. Mechanismy odolnosti proti chybám ve službě HDInsight poskytují služby s vysokou dostupností ekosystému Microsoftu i Apache OSS.
Následující komponenty infrastruktury jsou navržené tak, aby byly vysoce dostupné:
- Aktivní a pohotovostní hlavní uzly
- Několik uzlů brány
- Tři uzly kvora Zookeeper
- Pracovní uzly distribuované podle domén selhání a aktualizačních domén
Následující služby jsou také navrženy tak, aby byly vysoce dostupné:
- Apache Ambari Server
- Časové osy aplikací pro YARN
- Server historie úloh pro Hadoop MapReduce
- Apache Livy
- HDFS
- YARN Resource Manager
- Hlavní server HBase
Další informace najdete v tématu Služby s vysokou dostupností podporované službou Azure HDInsight.
Metastory: Azure SQL Database. HDInsight používá Azure SQL Database jako metastore, který poskytuje smlouvu SLA 99,99 %. Tři repliky dat se uchovávají v rámci datacentra s synchronní replikací. Pokud dojde ke ztrátě repliky, bude se bez problémů obsluhovat alternativní replika. Aktivní geografická replikace je podporována mimo tuto možnost s maximálně čtyřmi datovými centry. Když dojde k převzetí služeb při selhání, ať už ruční, nebo datové centrum, první replika v hierarchii se automaticky stane podporující čtení i zápis. Další informace najdete v tématu Provozní kontinuita služby Azure SQL Database.
Úložiště: Azure Data Lake Gen2 nebo Blob Storage. HDInsight doporučuje Azure Data Lake Storage Gen2 jako podkladovou vrstvu úložiště. Azure Storage, včetně Azure Data Lake Storage Gen2, poskytuje smlouvu SLA o 99,9 %. HDInsight používá službu LRS, ve které tři repliky dat zůstávají v datovém centru a replikace je synchronní. Pokud dojde ke ztrátě repliky, replika se bez problémů obsluhuje.
Ověřování: Microsoft Entra ID, Microsoft Entra Domain Services, Enterprise Security Package.
- Microsoft Entra ID poskytuje smlouvu SLA 99,9 %. Active Directory je globální služba s několika úrovněmi interní redundance a automatické obnovitelnosti. Další informace naleznete v tom, jak Společnost Microsoft průběžně vylepšuje spolehlivost Microsoft Entra ID.
- Služba Microsoft Entra Domain Services poskytuje smlouvu SLA 99,9 %. Microsoft Entra Domain Services je vysoce dostupná služba hostovaná v globálně distribuovaných datových centrech. Sady replik jsou funkce Preview ve službě Microsoft Entra Domain Services, která umožňuje geografické zotavení po havárii, pokud oblast Azure přejde do režimu offline. Další informace najdete v tématu Koncepty a funkce sad replik pro službu Microsoft Entra Domain Services , kde najdete další informace.
- Azure DNS poskytuje smlouvu SLA o hodnotě 100 %. HDInsight používá k překladu názvů domén Azure DNS na různých místech.
Volitelné služby, jako je Azure Key Vault a Azure Data Factory.