Sdílet prostřednictvím


Osvědčené postupy pro spolehlivost ve službě Azure Monitor

V cloudu bereme na vědomí, že k selháním dochází. Místo snahy kompletně zabránit selháním je cílem minimalizace dopadu selhání jedné komponenty. Následující informace použijte k monitorování virtuálních počítačů a jejich klientských úloh selhání.

Tento článek popisuje spolehlivost pro Azure Monitor jako součást architektury Azure Well-Architected Framework. Dobře navržená architektura Microsoft Azure je sada návodných principů, které se dají použít ke zlepšení kvality úloh. Rámec se skládá z pěti pilířů špičkové architektury:

  • Spolehlivost
  • Zabezpečení
  • Optimalizace nákladů
  • Efektivita provozu
  • Efektivita výkonu

Azure Monitor Logs

Pracovní prostory služby Log Analytics nabízejí vysoký stupeň spolehlivosti. Kanál příjmu dat, který odesílá shromážděná data do pracovního prostoru služby Log Analytics, ověří, že pracovní prostor služby Log Analytics úspěšně zpracuje každý záznam protokolu předtím, než odebere záznam z kanálu. Pokud kanál příjmu dat není dostupný, agenti, kteří odesílají vyrovnávací paměť dat, a zkusí protokoly odeslat několik hodin znovu.

Funkce protokolů služby Azure Monitor, které zvyšují odolnost

Protokoly služby Azure Monitor nabízí několik funkcí, které zlepšují odolnost pracovních prostorů vůči různým typům problémů. Tyto funkce můžete používat jednotlivě nebo v kombinaci v závislosti na vašich potřebách.

Toto video obsahuje přehled možností spolehlivosti a odolnosti, které jsou k dispozici pro pracovní prostory služby Log Analytics:

Ochrana v jednotlivých oblastech pomocí zón dostupnosti

Každá oblast Azure, která podporuje zóny dostupnosti, má sadu datacenter vybavených nezávislým napájením, chlazením a síťovou infrastrukturou.

Zóny dostupnosti protokolů služby Azure Monitor jsou redundantní, což znamená, že Microsoft rozloží žádosti o služby a replikuje data napříč různými zónami v podporovaných oblastech. Pokud incident ovlivní jednu zónu, Microsoft místo toho automaticky použije jinou zónu dostupnosti v dané oblasti. Nemusíte nic dělat, protože přepínání mezi zónami je bezproblémové.

Ve většině oblastí podporují zóny dostupnosti služby Azure Monitor odolnost dat, což znamená, že uložená data jsou chráněná před ztrátou dat související se selháními zón, ale operace služeb můžou mít stále vliv na regionální incidenty. Pokud služba nemůže spouštět dotazy, nemůžete zobrazit protokoly, dokud se problém nevyřeší.

Podmnožina zón dostupnosti, které podporují odolnost dat, také podporuje odolnost služeb, což znamená, že operace služby Azure Monitor Logs – například příjem protokolů, dotazy a výstrahy – můžou pokračovat v případě selhání zóny.

Zóny dostupnosti chrání před incidenty souvisejícími s infrastrukturou, jako jsou selhání úložiště. Nechrání se před problémy na úrovni aplikace, jako jsou chybná nasazení kódu nebo selhání certifikátů, které mají vliv na celou oblast.

Zálohování dat z konkrétních tabulek pomocí průběžného exportu

Data odesílaná do konkrétních tabulek v pracovním prostoru Služby Log Analytics můžete průběžně exportovat do účtů úložiště Azure.

Účet úložiště, do které exportujete data, musí být ve stejné oblasti jako pracovní prostor služby Log Analytics. Pokud chcete chránit a mít přístup k přijatým protokolům, i když je oblast pracovního prostoru mimo provoz, použijte geograficky redundantní účet úložiště, jak je vysvětleno v doporučeních konfigurace.

Mechanismus exportu neposkytuje ochranu před incidenty, které mají vliv na kanál příjmu dat nebo samotný proces exportu.

Poznámka:

K datům v účtu úložiště můžete přistupovat z protokolů služby Azure Monitor pomocí operátoru externaldata. Exportovaná data jsou ale uložená v pětiminutových objektech blob a analýza dat, která pokrývají více objektů blob, může být těžkopádná. Proto je export dat do účtu úložiště dobrým mechanismem zálohování dat, ale zálohování dat v účtu úložiště není ideální, pokud je potřebujete pro analýzu v protokolech služby Azure Monitor. Velké objemy dat objektů blob můžete dotazovat pomocí Azure Data Exploreru, Azure Data Factory nebo jakéhokoli jiného nástroje pro přístup k úložišti.

Ochrana dat napříč oblastmi a odolnost služeb pomocí replikace pracovního prostoru (Preview)

Replikace pracovního prostoru (Preview) je nejrozsáhlejší řešení odolnosti, protože replikuje pracovní prostor služby Log Analytics a příchozí protokoly do jiné oblasti.

Replikace pracovního prostoru chrání protokoly i operace služby a umožňuje pokračovat v monitorování systémů v případě incidentů týkajících se infrastruktury nebo aplikací v celé oblasti.

Na rozdíl od zón dostupnosti, které spravuje Microsoft, musíte monitorovat stav primárního pracovního prostoru a rozhodnout se, kdy se má přepnout do pracovního prostoru v sekundární oblasti a zpět.

Kontrolní seznam návrhu

  • Pokud chcete zajistit odolnost služeb a dat vůči incidentům v celé oblasti, povolte replikaci pracovního prostoru.
  • Pokud chcete zajistit ochranu v oblasti před selháním datacentra, vytvořte pracovní prostor v oblasti, která podporuje zóny dostupnosti.
  • Pro zálohování dat napříč oblastmi v konkrétních tabulkách použijte funkci průběžného exportu k odesílání dat do geograficky replikovaného účtu úložiště.
  • Monitorujte stav pracovních prostorů služby Log Analytics.

Doporučení pro konfiguraci

Doporučení Výhoda
Pokud chcete zajistit největší míru odolnosti, povolte replikaci pracovního prostoru. Odolnost mezi oblastmi pro operace dat a služeb pracovního prostoru

Replikace pracovního prostoru (Preview) zajišťuje vysokou dostupnost vytvořením sekundární instance pracovního prostoru v jiné oblasti a ingestováním protokolů do obou pracovních prostorů.

V případě potřeby přepněte do sekundárního pracovního prostoru, dokud se nevyřeší problémy, které mají vliv na primární pracovní prostor. V sekundárním pracovním prostoru můžete dál ingestovat protokoly, dotazovat se na data, používat řídicí panely, výstrahy a Sentinel. Máte také přístup k protokolům přijatým před přepnutím oblasti.

Jedná se o placenou funkci, proto zvažte, jestli chcete replikovat všechny příchozí protokoly, nebo jenom některé datové proudy.
Pokud je to možné, vytvořte pracovní prostor v oblasti, která podporuje odolnost služby Azure Monitor. Odolnost dat a služeb pracovního prostoru v oblasti v případě problémů s datacentrem

Zóny dostupnosti, které podporují odolnost služeb, také podporují odolnost dat. To znamená, že i když bude celé datové centrum nedostupné, redundance mezi zónami umožňuje operacím služby Azure Monitor, jako je příjem dat a dotazování, dál fungovat a ingestované protokoly zůstanou dostupné.

Zóny dostupnosti poskytují ochranu v jednotlivých oblastech, ale nechrání před problémy, které mají vliv na celou oblast.

Informace o oblastech, které podporují odolnost dat, najdete v tématu Vylepšení odolnosti dat a služeb v protokolech služby Azure Monitor pomocí zón dostupnosti.
Vytvořte pracovní prostor v oblasti, která podporuje odolnost dat. Ochrana v oblasti před ztrátou protokolů v pracovním prostoru v případě problémů s datacentrem

Vytvoření pracovního prostoru v oblasti, která podporuje odolnost dat, znamená, že i v případě nedostupnosti celého datacentra jsou ingestované protokoly bezpečné.
Pokud služba nemůže spouštět dotazy, nemůžete zobrazit protokoly, dokud se problém nevyřeší.

Informace o oblastech, které podporují odolnost dat, najdete v tématu Vylepšení odolnosti dat a služeb v protokolech služby Azure Monitor pomocí zón dostupnosti.
Nakonfigurujte export dat z konkrétních tabulek do účtu úložiště, který se replikuje napříč oblastmi. Udržujte záložní kopii dat protokolu v jiné oblasti.

Funkce exportu dat ve službě Azure Monitor umožňuje nepřetržitě exportovat data odesílaná do konkrétních tabulek do úložiště Azure, kde je možné uchovávat po delší období. Pomocí účtu geograficky redundantního úložiště (GRS) nebo geograficky zónově redundantního úložiště (GZRS) udržujte svá data v bezpečí, i když bude celá oblast nedostupná. Pokud chcete, aby vaše data byla čitelná z ostatních oblastí, nakonfigurujte účet úložiště pro přístup pro čtení do sekundární oblasti. Další informace najdete v tématu Redundance služby Azure Storage v sekundární oblasti a přístup ke čtení k datům v sekundární oblasti.

U tabulek, které nepodporují průběžný export dat, můžete k ochraně dat použít jiné metody exportu dat, včetně Logic Apps. Jedná se především o řešení, které splňuje dodržování předpisů pro uchovávání dat, protože jejich analýza a obnovení do pracovního prostoru může být obtížné.

Export dat je náchylný k regionálním incidentům, protože závisí na stabilitě kanálu příjmu dat služby Azure Monitor ve vaší oblasti. Neposkytuje odolnost proti incidentům, které mají vliv na místní kanál příjmu dat.
Monitorujte stav pracovních prostorů služby Log Analytics. Pomocí přehledů pracovního prostoru služby Log Analytics můžete sledovat neúspěšné dotazy a vytvořit upozornění na stav, které vás proaktivně upozorní, pokud se pracovní prostor kvůli selhání datacentra nebo oblasti stane nedostupným.

Porovnání funkcí odolnosti protokolů služby Azure Monitor

Funkce Odolnost služeb Zálohování dat Vysoká dostupnost Rozsah ochrany Nastavení Náklady
Replikace pracovního prostoru Ochrana mezi oblastmi před incidenty na úrovni celé oblasti Povolte replikaci pracovního prostoru a souvisejících pravidel shromažďování dat. Podle potřeby můžete přepínat mezi oblastmi. Na základě počtu replikovaných gb a oblasti.
Zóny dostupnosti
V podporovaných oblastech
Ochrana dat v oblasti před problémy s datovým centrem Automaticky povoleno v podporovaných oblastech. Žádné náklady
Průběžný export dat Ochrana před ztrátou dat kvůli selhání oblasti 1 Povolit pro každou tabulku Náklady na export dat + objekt blob služby Storage nebo Event Hubs

1 Export dat poskytuje ochranu mezi oblastmi, pokud exportujete protokoly do geograficky replikovaného účtu úložiště. V případě incidentu se dříve exportovaná data zálohují a jsou snadno k dispozici; Další export však může selhat v závislosti na povaze incidentu.

Výstrahy

Upozornění služby Azure Monitor nabízejí vysokou míru spolehlivosti bez jakýchkoli rozhodnutí o návrhu. Podmínky, kdy může dojít k dočasné ztrátě dat výstrahy, se často zmírňují funkcemi jiných komponent služby Azure Monitor.

Kontrolní seznam návrhu

  • Nakonfigurujte pravidla upozornění služby Service Health.
  • Nakonfigurujte pravidla upozornění služby Resource Health.
  • Vyhněte se omezením služeb pro pravidla upozornění, která vytvářejí oznámení ve velkém měřítku.

Doporučení pro konfiguraci

Doporučení Výhoda
Nakonfigurujte pravidla upozornění služby Service Health. Stav služby upozornění vám posílají oznámení o výpadkech, přerušeních služeb, plánované údržbě a informačních zpravodajích zabezpečení. Viz Vytvoření nebo úprava pravidla upozornění.
Nakonfigurujte pravidla upozornění služby Resource Health. Výstrahy služby Resource Health vás můžou informovat téměř v reálném čase, když se tyto prostředky změní ve stavu. Viz Vytvoření nebo úprava pravidla upozornění.
Vyhněte se omezením služeb pro pravidla upozornění, která vytvářejí oznámení ve velkém měřítku. Pokud máte pravidla upozornění, která by odesílala velký počet oznámení, můžete dosáhnout limitů služeb pro službu, kterou používáte k odesílání e-mailů nebo oznámení SMS. Nakonfigurujte programové akce nebo zvolte alternativní metodu oznámení nebo poskytovatele pro zpracování oznámení ve velkém měřítku. Viz Omezení služeb pro oznámení.

Virtuální počítače

Kontrolní seznam návrhu

  • Vytvořte pravidla upozornění na dostupnost pro virtuální počítače Azure.
  • Vytvořte pravidlo upozornění prezenčních signálů agenta pro ověření stavu agenta.
  • Nakonfigurujte shromažďování dat a upozorňování pro monitorování spolehlivosti klientských pracovních postupů.

Doporučení pro konfiguraci

Doporučení Popis
Vytvořte pravidla upozornění na dostupnost pro virtuální počítače Azure. Pomocí metriky dostupnosti (Preview) můžete sledovat, kdy je virtuální počítač Azure spuštěný. I když můžete rychle povolit pravidlo upozornění dostupnosti pro jednotlivé počítače pomocí doporučených upozornění, jedno pravidlo upozornění, které cílí na skupinu prostředků nebo předplatné, umožňuje upozorňování dostupnosti pro všechny virtuální počítače v daném rozsahu pro konkrétní oblast. Je to snazší spravovat než vytvořit pravidlo upozornění pro každý virtuální počítač a zajistit, aby se všechny nové virtuální počítače vytvořené v oboru automaticky monitorovaly. Toto pravidlo upozornění nevyžaduje, aby se na virtuální počítač nainstaloval agent Azure Monitor, ale není k dispozici pro virtuální počítače mimo Azure.
Vytvořte pravidlo upozornění prezenčních signálů agenta pro ověření stavu agenta. Agent Azure Monitoru odesílá prezenčních signálů do pracovního prostoru služby Log Analytics každou minutu. Použijte pravidlo upozornění prohledávání protokolu pomocí prezenčních signálů agenta, které se má upozornit, když agent přestane odesílat prezenčních signálů, což je indikátor, že virtuální počítač je nefunkční nebo že agent není v pořádku a klientské úlohy se nemonitorují. Toto pravidlo upozornění vyžaduje, aby byl na virtuálním počítači nainstalovaný agent Azure Monitor a vztahuje se na virtuální počítače Azure i jiné než Azure.
Nakonfigurujte shromažďování dat a upozorňování pro monitorování spolehlivosti klientských pracovních postupů. Informace o monitorování virtuálních počítačů s monitorováním virtuálních počítačů se službou Azure Monitor: Shromážděte data a nakonfigurujte shromažďování událostí klienta, které indikují potenciální problémy s klientskými úlohami. Použijte informace na webu Monitorování virtuálních počítačů s monitorováním virtuálních počítačů se službou Azure Monitor: Upozornění na vytváření pravidel upozornění, která budou proaktivně upozorněna na případné provozní problémy s úlohami klienta.

Kontejnery

Kontrolní seznam návrhu

  • Povolte výstřižky metrik Prometheus pro váš cluster.
  • Povolte Přehledy kontejnerů pro shromažďování protokolů a dat o výkonu z vašeho clusteru.
  • Vytvořte nastavení diagnostiky pro shromažďování protokolů řídicí roviny pro clustery AKS.
  • Povolte doporučená upozornění prometheus.
  • Zajistěte dostupnost pracovního prostoru služby Log Analytics podporujícího přehledy kontejnerů.

Doporučení pro konfiguraci

Doporučení Výhoda
Povolte výstřižky metrik Prometheus pro váš cluster. Pokud ještě nemáte prostředí Prometheus , povolte v clusteru službu Azure Monitor spravované služby pro Prometheus . K analýze shromážděných dat Prometheus použijte Azure Managed Grafana . Informace o přizpůsobení výstřižků metrik Prometheus ve spravované službě Azure Monitor pro Prometheus vám umožní shromažďovat další metriky nad rámec výchozí konfigurace.
Povolte Přehledy kontejnerů pro shromažďování protokolů a dat o výkonu z vašeho clusteru. Container Insights shromažďuje protokoly stdout/stderr, metriky výkonu a události Kubernetes z každého uzlu v clusteru. Poskytuje řídicí panely a sestavy pro analýzu těchto dat, včetně dostupnosti uzlů a dalších komponent. Využijte Log Analytics k identifikaci chyb dostupnosti v shromážděných protokolech.
Vytvořte nastavení diagnostiky pro shromažďování protokolů řídicí roviny pro clustery AKS. AKS implementuje protokoly řídicích rovin jako protokoly prostředků ve službě Azure Monitor. Vytvořte nastavení diagnostiky pro odesílání těchto protokolů do pracovního prostoru služby Log Analytics, abyste mohli pomocí dotazů protokolu identifikovat chyby a problémy ovlivňující dostupnost.
Povolte doporučená upozornění prometheus. Výstrahy ve službě Azure Monitor vás aktivně upozorňují, když se zjistí problémy. Začněte sadou doporučených pravidel upozornění Prometheus, která detekují nejběžnější problémy s dostupností a výkonem vašeho clusteru. Potenciálně můžete přidat upozornění prohledávání protokolů pomocí dat shromážděných službou Container Insights.
Zajistěte dostupnost pracovního prostoru služby Log Analytics podporujícího přehledy kontejnerů. Přehledy kontejnerů závisí na pracovním prostoru služby Log Analytics. Pokud chcete zajistit spolehlivost pracovního prostoru, podívejte se na osvědčené postupy pro protokoly služby Azure Monitor.

Další krok