Po incydencie

7 min

Zespół inżynierów platformy Azure przeprowadza wewnętrzne retrospektywy dla zdarzeń usług, które wpływają na klientów, aby dowiedzieć się, co się stało — ostatecznie, aby zdarzenia były mniej prawdopodobne, a co najmniej mniej wpływające. Szczegółowe informacje z tych wewnętrznych badań są udostępniane klientom i partnerom w postaci przeglądów po zdarzeniu (PIR).

W przypadku naszych największych najbardziej wpływowych zdarzeń usług (zwłaszcza incydentów z wpływem na wiele usług i wielu regionów) zapraszamy również klientów do retrospektywnego transmisji strumieniowej zdarzeń platformy Azure — aby usłyszeć, jak nasi liderzy inżynierów podsumowują to, co się stało i czego się dowiedzieliśmy, a klienci i partnerzy mogą uzyskać odpowiedzi na wszelkie pytania dotyczące incydentu udzielonych przez naszych ekspertów w tej dziedzinie.

Na koniec, jeśli w wyniku jednego lub większej liczby zdarzeń usługi nie osiągniemy lub nie utrzymamy umów dotyczących poziomu usług (SLA), to klienci mogą kwalifikować się do uzyskania kredytu na część miesięcznych opłat za usługi.

Przeglądy po zdarzeniu (PIR)

W przypadku każdego zdarzenia usługi platformy Azure, które ma wpływ na klientów, udostępniamy oświadczenie zaradcze, które podsumowuje, co się stało, z usługami, w których regionach i kiedy rozpoczął się wpływ, i ostatecznie zostanie złagodzone.

W przypadku mniejszych, mniej wpływających problemów z usługą, w których wyzwalacz i czynniki współtworzenia są już dobrze zrozumiałe, ta instrukcja ograniczania ryzyka jest ostatecznym podsumowaniem. (Na przykład gdy problemy mają wpływ tylko na podzbiór pojedynczej usługi w jednym regionie z stosunkowo krótkim czasem trwania).
W przypadku problemów z usługami, które zostały rozwiązane, ale nadal wymagają dokładniejszego zbadania, aby w pełni zrozumieć, oświadczenie ograniczenia ryzyka następuje po przeglądzie po zdarzeniu (PIR) po zakończeniu wewnętrznych badań, zazwyczaj w ciągu 14 dni od ograniczenia ryzyka. Prawa do ściągnięcia obejmują wszelkie wnioski lub ulepszenia, które firma Microsoft wprowadza w wyniku zdarzenia, oraz wszelkie odpowiednie zalecenia dotyczące odporności dotyczące sposobu, w jaki klienci i partnerzy mogą zmniejszyć wpływ na podobne zdarzenia.
W przypadku naszych największych, najbardziej wpływających problemów z usługą oświadczenie ograniczenia ryzyka następuje wstępne przegląd po zdarzeniu (PIR) ogólnie w ciągu 72 godzin od ograniczenia ryzyka, aby podsumować, czego dowiedzieliśmy się do tej pory od badania nadal w toku. (Na przykład gdy problemy mają wpływ na wiele usług lub wiele regionów lub z dłuższym czasem trwania). Po zakończeniu wewnętrznego retrospektywy, ogólnie w ciągu 14 dni od ograniczenia ryzyka, ostateczny przegląd po zdarzeniu (PIR) zostanie opublikowany w celu dostarczenia dodatkowych szczegółów lub informacji.

Wszystkie przeglądy po zdarzeniu (PIR) są wysyłane do subskrypcji, których dotyczy ten wpływ za pośrednictwem usługi Azure Service Health, docelowej w bloku "Historia kondycji". Spowoduje to również wyzwolenie alertów usługi Service Health skonfigurowanych przez klienta, w których kryteria alertu obejmują typ zdarzenia "Problem z usługą" i zostaną oznaczone atrybutem "Etap" ustawionym na wartość "Analiza głównej przyczyny". W przypadku zdarzeń, które spełniają nasze kryteria publicznego ujawniania informacji (zdarzenia scenariusza 1, zgodnie z opisem w naszej dokumentacji publicznej), najnowszy przegląd po zdarzeniu będzie również dostępny na stronie Historia stanu platformy Azure.

Uwaga

Trwa przejście z "Analizy głównej przyczyny (RCA)" na "Post Incident Reviews (PIRs)", więc możesz tymczasowo zobaczyć oba terminy używane zamiennie w witrynie Azure Portal i w alertach usługi Service Health.

Retrospektywa zdarzeń platformy Azure (wydarzenia transmisji strumieniowej na żywo klienta)

W przypadku naszych największych najbardziej wpływających zdarzeń usługi (zwłaszcza tych, które spełniają nasze kryteria ujawnienia publicznego, "Scenariusz 1", jak opisano w naszej dokumentacji publicznej), zapraszamy klientów, którzy mają wpływ na uczestnictwo w wydarzeniu retrospektywnym transmisji strumieniowej na żywo zdarzeń platformy Azure.

Te fora w stylu emisji internetowej umożliwiają klientom i partnerom, którzy mieli wpływ na zdarzenie, aby obejrzeć dyskusję z liderami inżynierów naszych odpowiednich zespołów usług — podsumowując, co się stało, jak zareagowaliśmy, czego się dowiedzieliśmy i co zrobimy (lub już robimy), aby "takie zdarzenia były mniej prawdopodobne" lub przynajmniej mniej istotne.

Poza oglądaniem tej dyskusji z liderami inżynierów, retrospektywne transmisje strumieniowe na żywo zdarzeń platformy Azure dają również klientom i partnerom możliwość uzyskania odpowiedzi na wszelkie pytania dotyczące incydentu udzielonych przez naszych ekspertów w tej dziedzinie — za pośrednictwem moderowanego panelu bocznego Pytania i odpowiedzi (Q&A), obsadzonego przez przedstawicieli naszych odpowiednich zespołów inżynieryjnych.

Aby upewnić się, że otrzymasz zaproszenie do retrospektywy zdarzeń platformy Azure (jeśli twoje usługi mają wpływ na kwalifikujące się zdarzenie "scenariusz 1", zobacz powyżej), upewnij się, że skonfigurowano alerty usługi Azure Service Health . Zaproszenia do retrospektywnych transmisji strumieniowej na żywo zdarzeń platformy Azure są dystrybuowane do usługi Service Health i za pośrednictwem alertów usługi Service Health, podobnie jak przeglądy po zdarzeniach (PIR).

Po każdym transmisji strumieniowej na żywo opublikujemy nagranie sesji z tą listą odtwarzania w serwisie YouTube i, w stosownych przypadkach, zaktualizujemy pir na stronie Historia stanu za pomocą linku do niego.

Umowy dotyczące poziomu usług (SLA) i proces środków na usługi

Umowy dotyczące poziomu usług (SLA) opisują zobowiązania firmy Microsoft dotyczące czasu pracy i łączności usług online firmy Microsoft. Bieżące i zarchiwizowane wersje umowy SLA są dostępne do pobrania i obejmują platformę Azure, a także usługi Dynamics 365, Office 365 i Intune. Jeśli nie osiągniemy i nie utrzymamy poziomów usług dla każdej usługi zgodnie z opisem w tej umowie SLA (z jakiegokolwiek powodu, w tym w wyniku jednego lub większej liczby zdarzeń usług), klienci mogą kwalifikować się do kredytu na część miesięcznych opłat za usługi.

Aby firma Microsoft rozważyła wniosek o kredyt z umową SLA, musisz przesłać wniosek do działu pomocy technicznej klienta w ciągu dwóch miesięcy od końca miesiąca rozliczeniowego, w którym wystąpił incydent będący przedmiotem roszczenia. Aby przesłać oświadczenie, zaloguj się do witryny Azure Portal, utwórz nowe żądanie pomocy technicznej, wybierz typ problemu "Rozliczenia", wybierz typ problemu "Żądanie zwrotu pieniędzy", a następnie podaj jak najwięcej szczegółów — w tym identyfikator śledzenia zdarzeń z usługi Azure Service Health oraz informacje dotyczące usług i zasobów, na które uważasz, że miało to wpływ.

Nasze zespoły pomocy technicznej ds. rozliczeń zweryfikują, na które zasoby, usługi i subskrypcje miały wpływ, a następnie obliczą i zastosują odpowiednie środki umowy SLA. Będziemy używać rozsądnych na rynku wysiłków w celu przetworzenia roszczeń w następnym miesiącu i w ciągu 45 dni od otrzymania. Jeśli ustalimy, że kredyt na usługę jest należny, zastosujemy środki na korzystanie z usług zgodnie z obowiązującymi miesięcznymi opłatami za usługi.

Środki na usługi są jedynym i wyłącznym rozwiązaniem wszelkich problemów z wydajnością lub dostępnością dla dowolnej usługi w ramach umowy SLA. Wersje zapoznawcze i Usługi online lub warstwy usług udostępniane bezpłatnie nie są uwzględniane ani nie kwalifikują się do oświadczeń lub środków umowy SLA. Ponadto należy pamiętać, że środki na usługi przyznane w dowolnym miesiącu rozliczeniowym dla określonej usługi lub zasobu usługi nie będą w żadnym wypadku przekraczać miesięcznych opłat za usługę lub zasób usługi, zgodnie z potrzebami, w miesiącu rozliczeniowym.

Po incydencie

Przeglądy po zdarzeniu (PIR)

Retrospektywa zdarzeń platformy Azure (wydarzenia transmisji strumieniowej na żywo klienta)

Umowy dotyczące poziomu usług (SLA) i proces środków na usługi

Opinia