Ustanawianie procesów zarządzania operacjami
W miarę jak twoje przedsiębiorstwo zaczyna obsługiwać obciążenia na platformie Azure, następnym krokiem jest ustanowienie procesu zarządzania operacyjnego i kondycji. Ten proces wylicza, implementuje i iteracyjnie przegląda i optymalizuje stan operacyjny dla tych obciążeń.
Proces przeglądu kondycji operacyjnej zapewnia, że całe portfolio obciążeń spełnia zobowiązania biznesowe dotyczące wydajności, niezawodności i kosztów. Ten proces jest zgodny z wysiłkami centralnych zespołów IT, centrum doskonałości chmury i obciążeń w celu zapewnienia doskonałości operacyjnej na dużą skalę.
Ustanawianie podstawowego procesu przeglądu kondycji operacyjnej
Utwórz proces przeglądu kondycji operacyjnej, aby w pełni zrozumieć problemy wynikające z uruchamiania obciążeń w środowisku produkcyjnym oraz sposoby korygowania i rozwiązywania tych problemów. W tym artykule opisano ogólny proces przeglądu sprawności operacyjnej, którego przedsiębiorstwo może użyć do osiągnięcia tego celu.
Kondycja operacyjna w firmie Microsoft
Od samego początku wiele zespołów w firmie Microsoft brało udział w tworzeniu platformy Azure. Trudno jest zapewnić jakość i spójność projektu o takim rozmiarze i złożoności. Potrzebny jest niezawodny proces wyliczania i wdrażania podstawowych wymagań niefunkcjonalnych w regularnych odstępach czasu.
Procesy, które firma Microsoft śledzi, stanowią podstawę procesów opisanych w tym artykule.
Omówienie ról i modeli operacyjnych
Zarządzanie operacjami to szeroka dyscyplina obejmująca wiele ról w całej firmie. W zależności od modelu operacyjnego organizacji te role mogą działać w środowisku macierzowym z wieloma odejściami między scentralizowanymi i zdecentralizowanymi zespołami operacyjnymi.
- Centralny dział IT/CCoE: Ta scentralizowana funkcja technologiczna jest odpowiedzialna za konfigurację, operacje, ład i bezpieczeństwo wszystkich zasobów technologicznych w portfolio technologii.
- Operacje w chmurze: Funkcja w scentralizowanej organizacji technologicznej, ta funkcja operacji zarządza kondycją i operacjami portfela technologii. Jest to ich odpowiedzialność za bezproblemowe działanie procesu, że każda sąsiadująca rola w procesie ma niezbędne narzędzia i że każda z kolejnych ról jest odpowiedzialna za oczekiwania tego procesu.
- Strategia chmury: Zawiera wiedzę na temat firmy w celu identyfikowania i określania priorytetów zobowiązań w celu utrzymania wymagań operacyjnych różnych obciążeń. Ta rola porównuje również koszty ograniczania ryzyka z wpływem na działalność biznesową i kieruje ostateczną decyzją w sprawie korygowania.
- Zespół ds. obciążeń: Odpowiedzialny za programowanie i operacje dyskretnych obciążeń, które są mapowe na określone aplikacje, usługi i infrastrukturę, zarówno lokalnie, jak i w chmurze. Rola wymaga głębokiej wiedzy na temat architektury obciążenia.
Model operacyjny każdej organizacji określa odpowiedzialność i codzienne działania powyższych ról:
- Operacje scentralizowane: Centralna it zapewnia pełną odpowiedzialność za operacje. Właściciele obciążeń mogą mieć dane wejściowe do operacji i konfiguracji, ale nie mają dostępu do zmiany środowisk produkcyjnych. Tylko centralne operacje IT i chmury mogą dostarczać zmiany operacyjne w celu poprawy kondycji operacyjnej.
- Operacje zdecentralizowane: Zespoły obciążeń są w pełni odpowiedzialny za operacje, zazwyczaj za pośrednictwem dojrzałego potoku ciągłej integracji/ciągłego wdrażania i automatyzacji DevOps. W tym modelu nie ma centralnej obsługi konfiguracji, operacji, ładu ani zabezpieczeń. Takie podejście do operacji jest poza zakresem Cloud Adoption Framework. Ten model operacyjny powinien zostać wyświetlony w przewodniku Azure Well-Architected Framework , aby uzyskać wskazówki operacyjne.
- Operacje przedsiębiorstwa: Centrum doskonałości chmury jest odpowiedzialny za operacje. Zespoły ds. operacji w chmurze i obciążeń współdzielą odpowiedzialność za konkretne aspekty sprawności operacyjnej.
Cel przeglądu
Kondycja operacyjna jest oceniana w całym portfolio przy użyciu kilku metryk: niezawodności, wydajności i kosztów. Razem te właściwości umożliwiają szybką ocenę kondycji i kondycji wszystkich aktywów w portfelu. Te metryki są oceniane w trzech podniesieniach uprawnień zarządzania operacjami.
- Punkt odniesienia operacji (lub ulepszony punkt odniesienia): Ocenia sprawność operacyjną we wszystkich wdrożonych zasobach niezależnie od ich funkcji. Ten szeroki widok operacji umożliwia zamiatanie zmian i duży wpływ, ale jest ograniczony brakiem wglądu w architekturę poszczególnych obciążeń. Wszystkie zasoby wdrożone w chmurze powinny być objęte planami bazowymi operacji z regularną obsługą operacji wykonywanych w chmurze. Niektóre środowiska mogą wymagać wyższego stopnia wsparcia operacyjnego, aby zaspokoić potrzeby rozszerzonego punktu odniesienia.
- Operacje platformy: Ocenia sprawność operacyjną scentralizowanych platform technologicznych. Ten widok operacji jest bardziej wyrafinowany, ponieważ uwzględnia architekturę platformy i sposób, w jaki zmiany w rozwiązaniu będą wpływać na kondycję operacyjną. Zmiany w centralnych platformach technologicznych mogą mieć szeroki wpływ na obsługiwane obciążenia. Wszystkie platformy o znaczeniu krytycznym powinny otrzymać dedykowaną pomoc techniczną od centralnego zespołu IT.
- Operacje obciążeń: Ocenia sprawność operacyjną poszczególnych obciążeń. Ten widok operacji jest najbardziej wyrafinowany i należy wziąć pod uwagę, gdy ulepszenia sprawności operacyjnej wymagają zmian w architekturze obciążenia. Operacje obciążeń powinny być zgodne z zasadami platformy Azure Well-Architected Framework. Wszystkie obciążenia o znaczeniu krytycznym z aktywnym cyklem DevOps powinny otrzymać dedykowaną pomoc techniczną od zespołu ds. obciążeń.
Celem przeglądu sprawności operacyjnej jest regularne ocenianie sprawności operacyjnej na wszystkich poziomach. Zidentyfikowane ulepszenia można następnie zastosować na odpowiednim poziomie, aby poinformować zmiany wymagane do zarządzania ogólnym portfelem.
Proces przeglądu sprawności operacyjnej
Kluczem do utrzymania wydajności i ciągłości portfela przedsiębiorstwa jest wdrożenie procesu przeglądu sprawności operacyjnej.
Na wysokim poziomie proces ma dwie fazy. W fazie wymagań wstępnych wymagania są ustanawiane i mapowane na usługi pomocnicze. Ta faza występuje rzadko: być może co roku lub po wprowadzeniu nowych operacji. Dane wyjściowe fazy wymagań wstępnych są używane w fazie przepływu. Faza przepływu występuje częściej, na przykład co miesiąc.
Faza wymagań wstępnych
Kroki opisane w tej fazie obejmują wymagania dotyczące przeprowadzania regularnego przeglądu portfela i wszelkich obciążeń o znaczeniu krytycznym.
Identyfikowanie krytycznych operacji biznesowych. Zidentyfikuj operacje biznesowe o znaczeniu krytycznym dla przedsiębiorstwa na podstawie uzgodnionych zobowiązań biznesowych. Operacje biznesowe są niezależne od wszystkich pomocniczych funkcji usługi. Innymi słowy, operacje biznesowe reprezentują rzeczywiste działania, które firma musi wykonać i które są obsługiwane przez zestaw usług IT.
Termin o znaczeniu krytycznym (lub krytycznym dla działania firmy) odzwierciedla poważny wpływ na firmę, jeśli operacja jest utrudniona. Na przykład sprzedawca internetowy może mieć operację biznesową, taką jak "umożliwienie klientowi dodania elementu do koszyka" lub "przetworzenie płatności kartą kredytową". Jeśli któraś z tych operacji zakończy się niepowodzeniem, klient nie może ukończyć transakcji, a przedsiębiorstwo nie może zrealizować sprzedaży.
Mapuj operacje na usługi. Zamapuj krytyczne operacje biznesowe na usługi IT (linie bazowe, platformy lub operacje obciążeń), które je obsługują. Każda platforma technologiczna lub obciążenie wymagane do obsługi krytycznej funkcji biznesowej powinny być również identyfikowane w celu mapowania operacji i usług na odpowiedzialne zespoły.
Analizowanie zależności usługi. Większość operacji biznesowych wymaga orkiestracji między wieloma pomocniczymi obciążeniami i platformami technologicznymi. Ważne jest, aby zrozumieć zależności między poszczególnymi zestawami zasobów pomocniczych oraz przepływem transakcji o znaczeniu krytycznym przez te usługi.
Należy również wziąć pod uwagę zależności między usługami lokalnymi i usługami platformy Azure. W przykładzie koszyka zakupów usługa zarządzania zapasami może być hostowana lokalnie i pozyskiwać dane wprowadzane przez pracowników z magazynu fizycznego. Może jednak przechowywać dane poza środowiskiem lokalnym w usłudze platformy Azure, takiej jak Azure Storage lub baza danych, taka jak Azure Cosmos DB.
Dane wyjściowe tych działań to zestaw metryk karty wyników na potrzeby zarządzania operacjami. Karta wyników mierzy kryteria, takie jak niezawodność, wydajność i koszt. Metryki karty wyników wyrażają kryteria operacyjne, które mają być spełnione przez usługę.
Karta wyników powinna być wyrażona w prosty sposób, aby ułatwić znaczącą dyskusję między właścicielami firm, operacjami w chmurze i zespołami obciążeń. Na przykład metryka karty wyników dla niezawodności może być oznaczona kolorami na podstawie osiągnięcia uzgodnionej umowy SLA. Zielony oznacza spełnienie zdefiniowanej umowy SLA, żółty oznacza, że nie spełnia zdefiniowanych kryteriów, ale aktywnie implementuje planowane korygowanie, a czerwone środki nie spełniają zdefiniowanych kryteriów bez planu ani działania.
Ważne jest, aby podkreślić, że te metryki powinny bezpośrednio odzwierciedlać zobowiązania biznesowe.
Faza przeglądu usługi
Faza przeglądu usług jest podstawą przeglądu kondycji operacyjnej. Obejmuje to następujące kroki:
Mierzenie metryk usługi. Użyj metryk karty wyników, aby monitorować wydajność na każdym poziomie zarządzania operacjami, aby upewnić się, że usługi spełniają zobowiązania biznesowe. Usługi spisu i widoczności w ramach planu bazowego operacji są niezbędne. Jeśli nie możesz monitorować zestawu zasobów w odniesieniu do zobowiązań biznesowych, weź pod uwagę odpowiednie metryki karty wyników, które mają być czerwone. W takim przypadku pierwszym krokiem do korygowania jest zaimplementowanie odpowiedniego monitorowania usługi. Jeśli na przykład firma oczekuje, że usługa będzie działać z dostępnością na poziomie 99,99%, ale nie ma danych telemetrycznych produkcyjnych do pomiaru dostępności, załóżmy, że nie spełniasz wymagań.
Planowanie korygowania. Dla każdego zobowiązania biznesowego, dla którego metryki spadną poniżej dopuszczalnego progu, określ odpowiedni zespół operacyjny, aby ukończyć wymagane korygowanie. Ten zespół jest odpowiedzialny za obliczanie kosztów korygowania usługi w celu zapewnienia akceptowalnego poziomu operacji. Jeśli koszt rozwiązania problemu jest większy niż budżet przydzielony do tej usługi, centralny dział IT / CCoE powinien przejrzeć zespół strategiczny ds. chmury, aby ocenić dodatkowe inwestycje.
Zaimplementuj korygowanie. Gdy operacje w chmurze lub zespół ds. obciążeń uzyskają akceptację planu korygowania, zaimplementuj go. Zgłoś stan implementacji za każdym razem, gdy przeglądasz metryki karty wyników.
Ten proces jest iteracyjny. Centralny zespół IT/CCoE jest odpowiedzialny za zarządzanie procesem i raportowanie postępu w zespole strategicznym ds. chmury. Ten zespół powinien regularnie spotykać się w celu przejrzenia istniejących projektów korygowania, rozpoczęcia podstawowego przeglądu nowych obciążeń i śledzenia ogólnej karty wyników przedsiębiorstwa. Zespół powinien również mieć uprawnienia do przechowywania zespołów korygującym (operacje w chmurze lub operacje obciążeń) do odpowiedzialności, jeśli są one za harmonogramem lub nie spełniają metryk.
Przegląd spotkania
Zalecamy regularne przeglądy sprawności operacyjnej. W przeglądzie wymagana jest centralna obsługa it/CCoE i zespół ds. operacji w chmurze. Zachęcamy do udziału w zespołach ds. strategii chmury i operacji obciążeń, ale są operacyjne. Przykładowa kadencja, podstawowy zespół może spotkać się co miesiąc, aby dostosować się do planów i trzymać różne zespoły operacyjne do odpowiedzialności. Co kwartał, strategia chmury i wszystkie zespoły obciążeń mogą dołączyć, aby zrozumieć stan i metryki.
Dostosuj szczegóły procesu i spełnianie określonych potrzeb. Zalecamy następujące zagadnienia jako punkt wyjścia:
- Operacje scentralizowane: Zespoły obciążeń są mało prawdopodobne, aby aktywnie uczestniczyć w tym procesie, ale powinny być uwzględniane w raportach w celu uzyskania widoczności.
- Operacje zdecentralizowane: Zespół ds. operacji w chmurze powinien udostępniać najlepsze rozwiązania używane do ulepszania operacji platform technologicznych w zespołach obciążeń. Zespoły obciążeń powinny udostępniać zmiany w odpowiednich obciążeniach, aby zidentyfikować ulepszenia, które można zastosować do platform technologicznych i planu bazowego operacji.
Zalecane zasoby
- Automatyczne zarządzanie platformą Azure. Usługa Azure Automanage automatycznie monitoruje kondycję operacyjną w ramach planu bazowego operacji i automatyzuje stosowanie różnych strategii korygowania w całym portfolio.
- Azure Advisor. Usługa Azure Advisor udostępnia spersonalizowane rekomendacje na podstawie użycia i konfiguracji, które ułatwiają optymalizowanie zasobów. Domyślnie to narzędzie udostępnia rekomendacje w ramach subskrypcji w celu ulepszenia planu bazowego operacji. Można go również używać bardziej szczegółowo do identyfikowania ulepszeń platform technologicznych lub poszczególnych obciążeń.
- Microsoft Azure Well-Architected Framework: wskazówki dotyczące ulepszania operacji obciążeń lub kierowania zdecentralizowanych operacji.