Korekty
Podzielenie cyklu życia reagowania na zdarzenia na pięć faz, jak pokazano w tym module, pomaga zrozumieć proces, ale fazy nie zawsze są tak odrębne, jak na diagramie. W szczególności granica między fazami reagowania i korygowania często jest rozmyta. Dzieje się tak zwłaszcza wtedy, gdy działania, które mają korygować lub poprawiać sytuację, przynoszą odwrotne skutki. W takim przypadku reagowanie i korygowanie może nakładać się na siebie lub przechodzić jedno w drugie i z powrotem.
W tej lekcji dowiesz się więcej na temat korygowania i kroków, które składają się na tę fazę, a także kilka przydatnych wskazówek i narzędzi. Należy pamiętać o tym, że nie należy podejmować działań opisanych tutaj jako normatywnej listy kontrolnej.
Jeśli masz już gotową listę kontrolną dotyczącą korygowania, często jest to wskazówka, że czas wprowadzić automatyzację. Kiedy możesz opisać dokładnie to, co należy zrobić i w jakim celu skorygować problem, to idealny czas, aby nauczyć te kroki maszyny, aby system mógł to zrobić za Ciebie.
Od czego zacząć
Wiesz już, jak ważne jest skrócenie czasu reagowania na zdarzenie. Teraz przyjrzyjmy się kilku rzeczom, które mogą przyspieszyć proces korygowania, czyli rozwiązywania problemu.
Różni członkowie zespołu mogą mieć różne modele psychiczne pracy i różnych pomysłów co do tego, co powinno być pierwszym krokiem. Można najpierw przyjrzeć się dziennikom, podczas gdy inne mogą najpierw uruchamiać zapytania i przeglądać metryki. Nie ma jednej prawidłowej ścieżki do sukcesu.
Jednak warto dostarczyć ludziom kontekst i wskazówki na temat tego, gdzie powinni zajrzeć i czego szukać.
Jak i do kogo eskalować
Ważnym pytaniem, na które należy odpowiedzieć, ustalając punkt startowy fazy korygowania, jest: jeśli utknę, do kogo mogę się zgłosić, aby eskalować problem? Zgłoszenia do pomocy technicznej powinny być obsługiwane przez cały zespół, a nie tylko przez specjalistów ds. operacji lub inżynierów ds. niezawodności lokacji. Wszyscy członkowie zespołu powinni być odpowiedzialni za sprawne działanie systemów pozwalające spełnić cele dotyczące niezawodności.
Jakie zasoby są przydatne dla osób reagujących jako pierwsze?
W następnej kolejności należy ustalić, czego mogą użyć osoby reagujące jako pierwsze, aby rozpocząć proces. Mogą to być odpowiednie metryki, dzienniki, zapytania i tak dalej. Jeśli to możliwe, należy je umieścić w skoroszycie platformy Azure/przewodniku rozwiązywania problemów. Porozmawiamy o nich za chwilę.
Przydatne jest również udostępnienie prostych linków do zasobów (często w przewodniku rozwiązywania problemów). Jeśli Twoim celem jest reagowanie i korygowanie problemu tak szybko, jak to możliwe, ułatwienie ludziom znalezienia odpowiedzi na pytania bez konieczności wyszukiwania odpowiedniego dokumentu lub adresu URL przyśpieszy proces.
Informowanie uczestników projektu
Możesz się tak skupić na rozwiązaniu problemu, który można zapomnieć, że istnieje wiele osób, które nie są bezpośrednio zaangażowane w reakcję na zdarzenie, ale którzy chcą i muszą wiedzieć, co się dzieje.
Ważne jest, aby komunikować się z innymi zespołami wewnętrznymi i informować ich o tym, co się dzieje w przypadku wystąpienia zdarzenia. Jeśli nie udostępnisz im spójnych aktualizacji, prawdopodobnie pojawi się prośba o aktualizację stanu. Mają wszelkie prawa do tych informacji, ale potrzebujesz lepszego sposobu, aby uświadomić im problem i co się z tym dzieje.
Musisz opracować jasny sposób komunikacji ze swoimi zespołami wewnętrznymi. Bądź jasny, przedstawiając to, co wiesz i co robisz, i ustalaj oczekiwania pod względem tego, kiedy usłyszą od Ciebie.
Formuła komunikacji z uczestnikami projektu jest prosta:
- To wiemy.
- To jest to, co robimy.
- Wrócimy do Ciebie w czasie X .
Pomoże to zapobiec zbliżaniu się zainteresowanych stron i przerywaniu pracy, gdy jesteś w środku próby rozwiązania problemów.
Jednym ze sposobów rozpowszechniania tych informacji jest użycie łatwo edytowalnej strony internetowej ze stanem, takiej jak ta, o której wspomnieliśmy w poprzedniej lekcji. W wielu przypadkach możesz mieć oddzielną, bardziej szczegółową stronę stanu dla wewnętrznych osób biorących udział w projekcie i zewnętrzną dla klientów. Poprzednia formuła działa w obu przypadkach.
Używanie skoroszytów usługi Azure Monitor i przewodników dotyczących rozwiązywania problemów
Platforma Azure ma dwie ściśle powiązane funkcje, które mogą być niezwykle przydatne dla zespołu w fazie korygowania: Skoroszyty usługi Azure Monitor i przewodniki rozwiązywania problemów z aplikacjami Szczegółowe informacje. Na potrzeby tego modułu są one wymienne, w tym z tym, że mają ten sam interfejs użytkownika. Skoroszyty usługi Azure Monitor można znaleźć w witrynie Azure Portal w obszarze Azure Monitor. Przewodniki rozwiązywania problemów z usługą Azure Szczegółowe informacje znajdziesz w witrynie Azure Portal po wybraniu wystąpienia usługi Applications Insight.
Skoroszyty i przewodniki rozwiązywania problemów można traktować jako "dokumenty na żywo", które można utworzyć przy użyciu interfejsu tworzenia strony. Podczas tworzenia nowego dokumentu do strony można dodać:
- Dowolny tekst, taki jak lista punktowana elementów do wykonania lub inne przydatne informacje dla kogoś, kto konsultuje stronę
- Linki do innych systemów, na przykład linki do innych pulpitów nawigacyjnych lub dokumentacji
- zapytania języka Kusto Query Language (KQL).
Jest to ostatni element, który sprawia, że dokument jest "żywy". W poprzednim module w tej ścieżce szkoleniowej zapoznaliśmy się z językiem zapytań KQL wbudowanym w usługę Log Analytics i innymi częściami usługi Azure Monitor. Korzystając z tego języka, mogliśmy napisać własne zapytania, aby zwracać i wyświetlać informacje diagnostyczne z naszej aplikacji i infrastruktury platformy Azure. Po wstawieniu zapytania KQL do skoroszytu lub przewodnika rozwiązywania problemów bieżące wyniki tego zapytania są wyświetlane na żywo dla czytelników dokumentu. Oznacza to, że przewodnik rozwiązywania problemów może nie tylko zawierać instrukcję „Pamiętaj o sprawdzeniu częstotliwości błędów na serwerze internetowym”, ale może również wyświetlać bieżący wykres dla częstotliwości błędów obok tej instrukcji. Może także zawierać link taki jak „tu znajduje się dokumentacja dotycząca ponownego uruchamiania serwera internetowego”, który zabierze osobę odpowiadającą jako pierwsza bezpośrednio do potrzebnej dokumentacji.
Platforma Azure udostępnia również kilka szablonów, które ułatwiają rozpoczęcie tworzenia własnych dokumentów. Oto zrzut ekranu przedstawiający niektóre wstępnie utworzone szablony:
Istnieje funkcja edytora zaawansowanego dla skoroszytów i przewodników rozwiązywania problemów, które umożliwiają dostęp do pliku JSON lub reprezentację szablonu usługi Azure Resource Manager dla tego dokumentu. Oznacza to, że można śledzić i rozpowszechniać te dokumenty przy użyciu wybranego systemu kontroli źródła. Umożliwia również zautomatyzowanie aprowizacji skoroszytów lub przewodników rozwiązywania problemów, co jest przydatne podczas aprowizowania innej infrastruktury. Utworzenie zestawu niestandardowych dokumentów rozwiązywania problemów w celu przejścia z nową usługą w czasie aprowizacji usługi staje się łatwe przy użyciu tego najlepszego rozwiązania.
Inne przydatne porady i narzędzia
W tym module przedstawiono różne narzędzia i skróty, których można użyć do zwiększenia wydajności i skrócenia czasu reagowania na zdarzenia. Po podsumowaniu tej ostatniej lekcji przedstawimy krótkie omówienie niektórych narzędzi i technik, które są pomocne w diagnozowaniu problemów w systemach.
- Możesz użyć linku Pulpit nawigacyjny aplikacji w aplikacji Szczegółowe informacje, aby automatycznie wygenerować pulpit nawigacyjny zawierający większość kluczowych elementów, które będą potrzebne jako punkt początkowy. Należy pamiętać, że nie obejmuje ona usługi Azure Service Health. Należy przypiąć tę usługę do pulpitu nawigacyjnego, aby móc sprawdzać, czy problem dotyczy systemów, czy samej usługi w chmurze.
- Możesz użyć mapy aplikacji w Szczegółowe informacje aplikacji, aby przejść do szczegółów dokładnie tego, co dzieje się, aby powodować problemy. Możesz śledzić linki do stron nadrzędnych, aby znaleźć przyczynę błędu (na przykład źle sformułowany adres URL).
- Usługa Log Analytics umożliwia wykonywanie zapytań względem dowolnej części systemu.
Wszystkie powyższe narzędzia są bezcenne w rozwiązywaniu problemów.