Charakterystyka i cykl życia zdarzenia

Ukończone

Jak pokazano w ostatniej lekcji, zdarzenie to zakłócenia usług, które wpływają na klientów i użytkowników końcowych. Zdarzenia występują w wielu formach, począwszy od spowolnień wydajności, które frustrują użytkowników ("wolne jest nowe") po awarie systemu, które sprawiają, że usługa lub witryna są całkowicie niedostępne przez pewien czas.

Cechy incydentu

Zdarzenia są zwykle nieoczekiwane i wydają się występować w najgorszym możliwym czasie (np. o godzinie 2:00 lub gdy jesteś głęboko zanurzony w ważnym projekcie). Dlatego incydenty są często obawiane i unikane, nawet do tego stopnia, że ludzie czasami bagatelizują znaczenie incydentu. Presja wewnętrzna jest czasami tak duża w organizacji, że istnieje pokusa błędnego etykietowania lub nie zgłaszania zakłóceń w obawie przed upomnianiem.

Przynajmniej incydenty tworzą nieplanowaną pracę i dlatego, że większość czasu poświęcasz na zaplanowaną pracę z dobrym pomysłem na to, co powinieneś robić, prawdopodobnie myślisz o zdarzeniach jako złych rzeczach. Jednak istnieje inny sposób, aby na to spojrzeć: incydenty są naprawdę inwestycjami w dostarczaniu wartości, którą chcesz przekazać użytkownikom końcowym. Niezależnie od przyczyny zdarzenia lub zakresu jego wpływu, wszystkie zdarzenia mają jedną wspólną rzecz: mogą dostarczyć cennych doświadczeń naukowych.

Zdarzenia należy postrzegać jako puls twoich systemów. Mówią ci więcej o systemie niż wcześniej rozumiesz, a wiedza jest dobrą rzeczą. Kiedy masz solidną podstawę monitorowania i dowiadujesz się więcej o tym, co dzieje się w Twoim systemie, to nieuchronnie wygeneruje więcej alertów, incydentów oraz możliwości na reakcję. Przynajmniej zdarzenia informują o tym, co się dzieje, a tym samym zwiększają świadomość operacyjną. W poprzednim module dotyczącym monitorowania zasugerowaliśmy, że był to ważny prekursor pracy nad niezawodnością.

Cykl życia zdarzenia

Jeśli chcesz podnieść status zespołu reagowania na incydenty do "elitarnego/najlepszego wykonawcy", musisz wyjść poza myślenie o zakłóceniach usługi lub incydentach jako linearnych osi czasu i spojrzeć na nie z perspektywy cyklicznej.

Cykl życia zdarzenia można oddzielić od różnych faz, które logicznie następują po jednym po drugim w cyklu, który wraca do początku. Za każdym razem, gdy przejdziesz przez ten cykl (i zrobisz to wiele razy), jeśli poprawnie go przeprowadzisz, możesz wrócić na początek z głębszym zrozumieniem swoich systemów. W przypadku niektórych zamierzonych prac można również lepiej przygotować się do szybkiego i skutecznego reagowania przy następnym wystąpieniu zdarzenia.

Fazy zdarzenia

Poszczególne fazy procesu reagowania na zdarzenia wyglądają nieco inaczej w zależności od używanego modelu. Na potrzeby tego modułu istnieją pięć faz, które należy wykonać w odpowiedzi na zdarzenie:

  • Wykrywanie: W tej fazie wiedza na temat monitorowania z poprzedniego modułu w tej ścieżce szkoleniowej jest wykorzystywana. Narzędzia do monitorowania zbierają informacje z dzienników, analizują te informacje zgodnie ze skonfigurowanymi celami skoncentrowanymi na kliencie i wysyłają alerty z możliwością działania, aby poinformować Cię, że potrzebna jest interwencja człowieka.
  • Odpowiedź: Ta faza następuje po tym, jak Ty i Twój zespół otrzymacie alert. Szczegółowo omówimy tę fazę w tym module, więc za chwilę będzie jeszcze wiele do powiedzenia na temat tego pomysłu.
  • Naprawa: W tej fazie przywracasz systemy do normalnego działania. Jak to zrobić, zależy od przyczyny przerw w działaniu usługi. Tworzenie kopii zapasowej usługi i jej uruchamianie i udostępnianie klientom jest twoim priorytetem. Jednak zadanie nie zostanie zatrzymane po wykonaniu tej czynności.
  • Analysis: aby uzyskać trwałą wartość z incydentów, należy się z nich uczyć. Ta faza to proces zbierania informacji na temat tego, co się stało i kiedy podczas zdarzenia oraz dowiedzieć się, czego można się z niego nauczyć, zadając odpowiednie pytania. Istnieje cały moduł dotyczący uczenia się z błędu, który dotyczy tej fazy.
  • gotowość: należy uwzględnić wnioski zdobyte w fazie analizy w praktyce operacyjnej. Jeśli istnieją elementy akcji, które pomogą zapobiec podobnej awarii w przyszłości, będą one również częścią tej fazy.

Diagram cyklu okręgów oznaczonych fazami z góry. Okręgi są połączone z następnym okręgiem ze strzałkami ze fazy do fazy.

Przed utworzeniem planu reagowania na zdarzenia należy zrozumieć charakterystykę i wartość zdarzeń oraz zapoznać się z fazami cyklu życia zdarzenia. Następnym krokiem jest zapewnienie, że strategia reagowania jest oparta na solidnych podstawach.

Sprawdź swoją wiedzę

1.

Które z nich można uznać za "impuls" systemu?

2.

Który z tych elementów nie jest fazą zdarzenia?