Jak monitorować dostępność klastra za pomocą dzienników usługi Azure Monitor w usłudze HDInsight
Klastry usługi HDInsight obejmują integrację dzienników usługi Azure Monitor, która zapewnia metryki i dzienniki z możliwością wykonywania zapytań, a także konfigurowalne alerty. W tym artykule pokazano, jak używać usługi Azure Monitor do monitorowania klastra.
Integracja dzienników usługi Azure Monitor
Dzienniki usługi Azure Monitor umożliwiają zbieranie i agregowanie danych generowanych przez wiele zasobów, takich jak klastry usługi HDInsight, w jednym miejscu w celu uzyskania ujednoliconego środowiska monitorowania.
W ramach wymagań wstępnych potrzebny będzie obszar roboczy usługi Log Analytics do przechowywania zebranych danych. Jeśli jeszcze go nie utworzono, możesz postępować zgodnie z instrukcjami w tym miejscu: Tworzenie obszaru roboczego usługi Log Analytics.
Włączanie integracji dzienników usługi Azure Monitor w usłudze HDInsight
Na stronie zasobów klastra usługi HDInsight w portalu wybierz pozycję Azure Monitor. Następnie wybierz pozycję Włącz i wybierz obszar roboczy usługi Log Analytics z listy rozwijanej.
Domyślnie powoduje to zainstalowanie agenta pakietu OMS na wszystkich węzłach klastra z wyjątkiem węzłów brzegowych. Ponieważ żaden agent pakietu OMS nie jest zainstalowany w węzłach brzegowych klastra, domyślnie w węzłach brzegowych usługi Log Analytics nie ma żadnych danych telemetrycznych.
Wykonywanie zapytań dotyczących metryk i tabel dzienników
Po włączeniu integracji dzienników usługi Azure Monitor (może to potrwać kilka minut), przejdź do zasobu obszaru roboczego usługi Log Analytics i wybierz pozycję Dzienniki.
Dzienniki zawierają listę wielu przykładowych zapytań, takich jak:
Nazwa zapytania | opis |
---|---|
Dostępność komputerów dzisiaj | Wyświetl wykres liczby komputerów wysyłających dzienniki (co godzinę) |
Wyświetl pulsy | Wyświetl listę wszystkich pulsów komputerów z ostatniej godziny |
Ostatni puls każdego komputera | Pokaż ostatni puls wysłany przez każdy komputer |
Niedostępne komputery | Wyświetl listę wszystkich znanych komputerów, które nie wysyłały pulsu w ciągu ostatnich 5 godzin |
Współczynnik dostępności | Obliczanie szybkości dostępności każdego podłączonego komputera |
Na przykład uruchom przykładowe zapytanie Dotyczące szybkości dostępności, wybierając pozycję Uruchom dla tego zapytania, jak pokazano na powyższym zrzucie ekranu. Spowoduje to wyświetlenie współczynnika dostępności każdego węzła w klastrze jako procent. Jeśli włączono wiele klastrów usługi HDInsight w celu wysyłania metryk do tego samego obszaru roboczego usługi Log Analytics, zobaczysz współczynnik dostępności dla wszystkich węzłów (z wyłączeniem węzłów brzegowych) w wyświetlonych klastrach.
Uwaga
Szybkość dostępności jest mierzona w okresie 24-godzinnym, więc klaster będzie musiał działać przez co najmniej 24 godziny, zanim zobaczysz dokładne stawki dostępności.
Tę tabelę można przypiąć do udostępnionego pulpitu nawigacyjnego, klikając pozycję Przypnij w prawym górnym rogu. Jeśli nie masz żadnych udostępnionych pulpitów nawigacyjnych z możliwością zapisu, możesz zobaczyć, jak utworzyć jeden z nich tutaj: Tworzenie i udostępnianie pulpitów nawigacyjnych w witrynie Azure Portal.
Alerty usługi Azure Monitor
Możesz również skonfigurować alerty usługi Azure Monitor, które będą wyzwalane, gdy wartość metryki lub wyniki zapytania spełniają określone warunki. Na przykład utwórzmy alert, aby wysłać wiadomość e-mail, gdy co najmniej jeden węzeł nie wysłał pulsu w ciągu 5 godzin (tj. jest uważany za niedostępny).
W obszarze Dzienniki uruchom przykładowe zapytanie Na komputerach niedostępnych, wybierając pozycję Uruchom dla tego zapytania, jak pokazano poniżej.
Jeśli wszystkie węzły są dostępne, to zapytanie powinno zwrócić zero wyników na razie. Kliknij pozycję Nowa reguła alertu, aby rozpocząć konfigurowanie alertu dla tego zapytania.
Alert zawiera trzy składniki: zasób , dla którego ma zostać utworzona reguła (w tym przypadku obszar roboczy usługi Log Analytics), warunek wyzwalający alert oraz grupy akcji określające, co się stanie po wyzwoleniu alertu. Kliknij tytuł warunku, jak pokazano poniżej, aby zakończyć konfigurowanie logiki sygnału.
Spowoduje to otwarcie okna Konfigurowanie logiki sygnału.
Ustaw sekcję Logika alertu w następujący sposób:
Na podstawie: Liczba wyników, Warunek: Większe niż, Próg: 0.
Ponieważ to zapytanie zwraca tylko niedostępne węzły jako wyniki, jeśli liczba wyników jest kiedykolwiek większa niż 0, alert powinien zostać wyzwolony.
W sekcji Oceniane na podstawie ustaw okres i częstotliwość na podstawie częstotliwości sprawdzania dostępności węzłów.
Na potrzeby tego alertu należy upewnić się, że parametr Period=Frequency. Więcej informacji na temat okresu, częstotliwości i innych parametrów alertu można znaleźć tutaj.
Po zakończeniu konfigurowania logiki sygnału wybierz pozycję Gotowe .
Jeśli nie masz jeszcze istniejącej grupy akcji, kliknij przycisk Utwórz nowy w sekcji Grupy akcji.
Spowoduje to otwarcie polecenia Dodaj grupę akcji. Wybierz nazwę grupy akcji, krótką nazwę, subskrypcję i grupę zasobów. W sekcji Akcje wybierz nazwę akcji i wybierz pozycję Email/SMS/Push/Voice jako typ akcji.
Uwaga
Istnieje kilka innych akcji, które alert może wyzwalać oprócz elementu Email/SMS/Push/Voice, takich jak azure Function, LogicApp, Webhook, ITSM i Automation Runbook. Dowiedz się więcej.
Spowoduje to otwarcie wiadomości e-mail/wiadomości SMS/wypychania/głosu. Wybierz nazwę adresata, zaznacz pole Adres e-mail i wpisz adres e-mail, na który ma zostać wysłany alert. Wybierz przycisk OK w obszarze Email/SMS/Push/Voice, a następnie w obszarze Dodaj grupę akcji, aby zakończyć konfigurowanie grupy akcji.
Po zamknięciu tych bloków powinna zostać wyświetlona grupa akcji wyświetlona w sekcji Grupy akcji. Na koniec ukończ sekcję Szczegóły alertu, wpisując nazwę reguły alertu i opis i wybierając ważność. Kliknij pozycję Utwórz regułę alertu , aby zakończyć.
Napiwek
Możliwość określenia ważności to zaawansowane narzędzie, które może być używane podczas tworzenia wielu alertów. Można na przykład utworzyć jeden alert, aby zgłosić ostrzeżenie (ważność 1), jeśli jeden węzeł główny ulegnie awarii, a drugi alert, który zgłasza wartość Krytyczne (ważność 1) w mało prawdopodobnym przypadku, w którym oba węzły główne zejdą w dół.
Po spełnieniu warunku dla tego alertu alert zostanie wyzwolony i otrzymasz wiadomość e-mail z następującymi szczegółami alertu:
Możesz również wyświetlić wszystkie wyzwolone alerty, pogrupowane według ważności, przechodząc do obszaru roboczego usługi Log Analytics.
Po wybraniu grupy ważności (tj. ważności 1, jak wyróżniono powyżej), zostaną wyświetlone rekordy dla wszystkich alertów o tej ważności, które zostały wyzwolone w następujący sposób: