Monitorování dostupnosti clusteru pomocí protokolů služby Azure Monitor ve službě HDInsight
Clustery HDInsight zahrnují integraci protokolů služby Azure Monitor, která poskytuje dotazovatelné metriky a protokoly a také konfigurovatelné výstrahy. Tento článek ukazuje, jak pomocí služby Azure Monitor monitorovat cluster.
Integrace protokolů služby Azure Monitor
Protokoly Služby Azure Monitor umožňují shromažďování a agregaci dat generovaných několika prostředky, jako jsou clustery HDInsight, a jejich agregace na jednom místě za účelem dosažení jednotného prostředí monitorování.
Předpokladem je, že k ukládání shromážděných dat budete potřebovat pracovní prostor služby Log Analytics. Pokud jste ho ještě nevytvořili, můžete postupovat podle pokynů zde: Vytvoření pracovního prostoru služby Log Analytics.
Povolení integrace protokolů služby AZURE Monitor ve službě HDInsight
Na stránce prostředků clusteru HDInsight na portálu vyberte Azure Monitor. Potom v rozevíracím seznamu vyberte možnost Povolit a vyberte pracovní prostor služby Log Analytics.
Ve výchozím nastavení se agent OMS nainstaluje na všechny uzly clusteru s výjimkou hraničních uzlů. Vzhledem k tomu, že na hraničních uzlech clusteru není nainstalovaný žádný agent OMS, ve výchozím nastavení v Log Analytics neexistuje žádná telemetrie.
Dotazování metrik a tabulek protokolů
Jakmile je povolená integrace protokolů služby Azure Monitor (to může trvat několik minut), přejděte k prostředku pracovního prostoru služby Log Analytics a vyberte Protokoly.
Protokoly uvádějí řadu ukázkových dotazů, například:
Název dotazu | Popis |
---|---|
Dnešní dostupnost počítače | Zobrazit graf počtu počítačů posílajících protokoly, každou hodinu |
Zobrazit prezenční signály | Zobrazit seznam všech prezenčních signálů počítače za poslední hodinu |
Poslední prezenční signál každého počítače | Zobrazení posledního prezenčních signálu odeslaných jednotlivými počítači |
Nedostupné počítače | Zobrazení seznamu všech známých počítačů, které za posledních 5 hodin neodesílaly prezenčních signálů |
Míra dostupnosti | Výpočet míry dostupnosti jednotlivých připojených počítačů |
Například spusťte ukázkový dotaz četnosti dostupnosti tak , že vyberete Spustit v tomto dotazu, jak je znázorněno na snímku obrazovky výše. Zobrazí se míra dostupnosti jednotlivých uzlů v clusteru jako procento. Pokud jste povolili odesílání metrik do stejného pracovního prostoru služby Log Analytics více clusterů HDInsight, zobrazí se v těchto clusterech míra dostupnosti pro všechny uzly (s výjimkou hraničních uzlů).
Poznámka:
Míra dostupnosti se měří během 24hodinového období, takže cluster bude muset běžet nejméně 24 hodin, než uvidíte přesné sazby dostupnosti.
Tuto tabulku můžete připnout na sdílený řídicí panel kliknutím na Připnout v pravém horním rohu. Pokud nemáte žádné zapisovatelné sdílené řídicí panely, můžete se podívat, jak ho vytvořit tady: Vytvoření a sdílení řídicích panelů na webu Azure Portal.
Upozornění služby Azure Monitor
Můžete také nastavit upozornění služby Azure Monitor, která se aktivují, když hodnota metriky nebo výsledky dotazu splňují určité podmínky. Pojďme například vytvořit upozornění pro odeslání e-mailu, když jeden nebo více uzlů během 5 hodin neodeslalo prezenční signál (tj. předpokládá se, že není k dispozici).
V protokolech spusťte ukázkový dotaz Nedostupné počítače výběrem možnosti Spustit v tomto dotazu, jak je znázorněno níže.
Pokud jsou všechny uzly k dispozici, měl by tento dotaz prozatím vrátit nulové výsledky. Kliknutím na tlačítko Nové pravidlo upozornění zahájíte konfiguraci upozornění pro tento dotaz.
Výstraha má tři komponenty: prostředek , pro který se má vytvořit pravidlo (v tomto případě pracovní prostor služby Log Analytics), podmínka pro aktivaci výstrahy a skupiny akcí, které určují, co se stane při aktivaci výstrahy. Kliknutím na název podmínky, jak je znázorněno níže, dokončete konfiguraci logiky signálu.
Otevře se logika konfigurace signálu.
Nastavte část logiky upozornění následujícím způsobem:
Na základě: Počet výsledků, Podmínka: Větší než, Prahová hodnota: 0.
Vzhledem k tomu, že tento dotaz vrátí jako výsledky pouze nedostupné uzly, pokud je počet výsledků vyšší než 0, mělo by se aktivovat upozornění.
V části Vyhodnoceno na základě oddílu nastavte období a frekvenci podle toho, jak často chcete zkontrolovat nedostupné uzly.
Pro účely tohoto upozornění se chcete ujistit, že Period=Frequency. Další informace o období, frekvenci a dalších parametrech upozornění najdete tady.
Po dokončení konfigurace logiky signálu vyberte Hotovo .
Pokud ještě nemáte existující skupinu akcí, klikněte v části Skupiny akcí na Vytvořit nový.
Tím se otevře skupina akcí Přidat. Zvolte název skupiny akcí, krátký název, předplatné a skupinu prostředků. V části Akce zvolte název akce a jako typ akce vyberte E-mail/SMS/Push/Voice.
Poznámka:
Existuje několik dalších akcí, které může upozornění aktivovat kromě e-mailu, SMS, nabízeného oznámení nebo hlasu, jako je funkce Azure, LogicApp, Webhook, ITSM a runbook Automation. Další informace
Tím se otevře e-mail, SMS, push/voice. Zvolte jméno příjemce, zaškrtněte políčko E-mail a zadejte e-mailovou adresu, na kterou chcete upozornění odeslat. Vyberte OK v e-mailu, SMS, nabízení a hlas a potom v přidání skupiny akcí dokončete konfiguraci skupiny akcí.
Po zavření těchto oken by se měla zobrazit skupina akcí uvedená v části Skupiny akcí. Nakonec dokončete část Podrobnosti výstrahy zadáním názvu a popisu pravidla upozornění a zvolením závažnosti. Kliknutím na vytvořit pravidlo upozornění dokončete.
Tip
Schopnost určit závažnost je výkonný nástroj, který lze použít při vytváření více výstrah. Můžete například vytvořit jednu výstrahu pro vyvolání upozornění (závažnost 1), pokud jeden hlavní uzel přestane fungovat, a další výstraha, která vyvolá kritickou (závažnost 1) v nepravděpodobném případě, že oba hlavní uzly zmizí.
Po splnění podmínky pro tuto výstrahu se upozornění aktivuje a zobrazí se e-mail s podrobnostmi o upozornění, jako je tento:
Můžete také zobrazit všechna upozornění, která se aktivovala, seskupené podle závažnosti, tak, že přejdete do upozornění v pracovním prostoru služby Log Analytics.
Když vyberete skupinu závažnosti (tj. závažnost 1, jak je zvýrazněno výše), zobrazí se záznamy pro všechny výstrahy této závažnosti, které se aktivovaly takto: