Najlepsze rozwiązania dotyczące proaktywnego monitorowania dla usługi Azure Kubernetes Service (AKS)

Artykuł
11/11/2024

W tym artykule opisano najlepsze rozwiązania dotyczące proaktywnego monitorowania w usłudze Azure Kubernetes Service (AKS) i przedstawiono kompleksową listę kluczowych sygnałów, które usługa AKS zaleca do monitorowania.

Aktywne monitorowanie klastrów usługi AKS ma kluczowe znaczenie dla zmniejszenia przestojów i zaoszczędzenia przerw w działaniu aplikacji. Ten proces obejmuje identyfikowanie i monitorowanie kluczowych wskaźników nietypowego zachowania w klastrze, które mogą prowadzić do poważnych problemów lub przestojów.

Omówienie monitorowania i zgłaszania alertów

Monitorowanie w usłudze AKS obejmuje używanie metryk, dzienników i zdarzeń w celu zapewnienia kondycji i wydajności klastra. Typowe scenariusze monitorowania obejmują wydajność węzła, stan zasobnika i ogólne wykorzystanie zasobów w klastrze. Dzienniki zapewniają wgląd w zdarzenia systemowe i operacje i działania klastra. Aby uzyskać więcej informacji na temat metod i sygnałów zapewnianych przez usługę AKS do monitorowania, zobacz Monitorowanie usługi Azure Kubernetes Service (AKS).

Najlepszym sposobem proaktywnego monitorowania klastra jest skonfigurowanie alertów usługi Azure Monitor. Alerty działają jako proaktywne środki, aby powiadomić o potencjalnych problemach lub anomaliach przed ich eskalacją do krytycznych problemów. Definiując progi kluczowych metryk i dzienników, otrzymujesz natychmiastowe alerty, gdy te sygnały przekraczają wstępnie zdefiniowane limity, co wskazuje potencjalne problemy, takie jak wyczerpanie zasobów lub błędy aplikacji. Zdecydowanie zalecamy zdefiniowanie celów poziomu usług (SLO) dla aplikacji w celu mierzenia wydajności i niezawodności usługi. Skonfigurowanie alertów dotyczących kluczowych sygnałów dla celów SLO umożliwia szybkie wykrywanie pogorszenia jakości usług aplikacji otrzymywanych przez klientów. Ogólnie rzecz biorąc, ustawienie alertów terminowych umożliwia szybkie badanie i korygowanie problemów, minimalizację przestojów i zapewnienie wysokiej dostępności aplikacji działających w klastrze usługi AKS.

Jak skonfigurować alerty dotyczące określonych typów metryk

Typ metryki	Gdzie znaleźć te metryki	Jak skonfigurować alerty
Metryka platformy AKS	Wyświetlanie metryk platformy za pomocą bloku Metryki w witrynie Azure Portal.	Alerty metryk można tworzyć, aktualizować i usuwać za pośrednictwem witryny Azure Portal. Aby uzyskać więcej informacji, zobacz Tworzenie alertu dotyczącego metryk dla zasobu platformy Azure.
Metryka Prometheus zarządzana przez platformę Azure	Aby uzyskać dostęp do metryk rozwiązania Prometheus, musisz włączyć zarządzany prometheus. Aby uzyskać szczegółowe informacje na temat włączania i wyświetlania metryk rozwiązania Prometheus, zobacz Azure Monitor i Prometheus.	Aby uzyskać wskazówki dotyczące konfigurowania alertów rozwiązania Prometheus, zobacz Usługa zarządzana usługi Azure Monitor dla grup reguł rozwiązania Prometheus.
Dzienniki aktywności platformy Azure	Wyświetlanie dzienników aktywności za pośrednictwem witryny Azure Portal. Aby uzyskać więcej informacji, zobacz Dzienniki aktywności platformy Azure dla usługi AKS.	Konfigurowanie alertów dotyczących dzienników aktywności za pośrednictwem witryny Azure Portal. Aby uzyskać więcej informacji, zobacz Alerty dziennika aktywności.
Metryka zestawu skalowania maszyn wirtualnych platformy Azure	Wyświetl metryki zestawu skalowania maszyn wirtualnych za pośrednictwem witryny Azure Portal.	1. Aby znaleźć wystąpienie zestawu skalowania maszyn wirtualnych skojarzone z pulą węzłów, przejdź do bloku Właściwości ustawień > klastra usługi AKS w witrynie Azure Portal. 2. Wybierz grupę zasobów infrastruktury, aby wyświetlić zasoby infrastruktury skojarzone z klastrem. 3. Wybierz wystąpienie zestawu skalowania maszyn wirtualnych zgodne z nazwą puli węzłów, dla której tworzysz alerty. 4. Przejdź do bloku Alerty , aby utworzyć alert dotyczący metryki.
Metryka modułu równoważenia obciążenia	Wyświetlanie metryk modułu równoważenia obciążenia za pośrednictwem strony modułu równoważenia obciążenia w witrynie Azure Portal.	1. Aby znaleźć wystąpienie modułu równoważenia obciążenia skojarzone z pulą węzłów, przejdź do bloku Właściwości ustawień > klastra usługi AKS w witrynie Azure Portal. 2. Wybierz grupę zasobów infrastruktury, aby wyświetlić zasoby infrastruktury skojarzone z klastrem. 3. Wybierz wystąpienie modułu równoważenia obciążenia, aby wyświetlić stronę witryny Azure Portal dla modułu równoważenia obciążenia. 4. Przejdź do strony Alerty , aby utworzyć alert dotyczący metryki modułu równoważenia obciążenia.
Dzienniki i zdarzenia	Aby otrzymywać alerty dotyczące dzienników i zdarzeń, należy włączyć usługę Container Insights. Aby uzyskać więcej informacji, zobacz Dzienniki zasobów usługi Azure Monitor.	Aby uzyskać wskazówki dotyczące tworzenia alertów dotyczących dzienników i zdarzeń, zobacz Tworzenie alertów przeszukiwania dzienników z usługi Container Insights.

Sygnały krytyczne do konfigurowania alertów

Aby uzyskać całościowe pokrycie środowiska usługi AKS, należy skonfigurować alerty dla trzech głównych składników klastra:

Infrastruktura klastra: alerty przeznaczone dla podstawowej infrastruktury klastra, takie jak węzły, dyski i sieć.
Kondycja aplikacji: alerty dotyczące monitorowania kondycji zasobników i aplikacji. Niektóre typowe wskaźniki złej kondycji aplikacji obejmują poza pamięcią (OOMKills) zasobników, zasobników w stanie braku gotowości itp.
Płaszczyzna sterowania platformy Kubernetes: alerty na płaszczyźnie sterowania usługi AKS w celu monitorowania kondycji i wydajności serwera interfejsu API itp. oraz innych składników.

W poniższych sekcjach znajdują się kluczowe sygnały, które zalecamy ścisłe monitorowanie wszystkich klientów usługi AKS. Zespół usługi AKS pracuje nad dodaniem wszystkich sygnałów krytycznych do istniejącej funkcji Zalecanych alertów , co umożliwia łatwe włączanie alertów dla wszystkich sygnałów ze środowiskiem jednym kliknięciem. Alerty metryk Rozwiązania Prometheus są obecnie dostępne w publicznej wersji zapoznawczej, a pozostałe alerty są szacowane na dostępność na początku 2025 r. Na razie można ręcznie skonfigurować alerty dotyczące sygnałów krytycznych.

Alerty dotyczące infrastruktury klastra

Scenariusz alertu	Źródło	Sygnał	Zalecany próg
Klaster jest w stanie niepowodzenia	Dzienniki aktywności platformy Azure	Tworzenie lub aktualizowanie klastra zarządzanego	Stan dziennika to Niepowodzenie, co oznacza, że akcja uaktualniania lub tworzenia klastra nie powiodła się.
Pula węzłów jest w stanie niepowodzenia	Dzienniki aktywności platformy Azure	Tworzenie lub aktualizowanie puli agentów	Stan dziennika to Niepowodzenie, co wskazuje, że pula węzłów jest w stanie Niepowodzenie z powodu nieudanej operacji tworzenia, odczytu, uaktualniania lub usuwania (CRUD).
Wysokie użycie przepustowości dysku systemu operacyjnego Węzła	Metryka zestawu skalowania maszyn wirtualnych	Procent zużycia przepustowości dysku systemu operacyjnego	Wykorzystanie przepustowości dysku systemu operacyjnego Węzła wynosi powyżej 95%.
Wysokie użycie operacji we/wy na sekundę dysku systemu operacyjnego węzła	Metryka zestawu skalowania maszyn wirtualnych	Procent zużycia operacji we/wy dysku systemu operacyjnego na sekundę	Wykorzystanie operacji we/wy na sekundę dysku systemu operacyjnego węzła wynosi powyżej 95%.
Wysokie użycie miejsca na dysku systemu operacyjnego Węzła	Metryka platformy AKS	Procent użycia dysku	Procentowe wykorzystanie miejsca na dysku systemu operacyjnego Węzła wynosi powyżej 90%.
Wysokie użycie procesora CPU węzła	Metryka platformy AKS	Procent użycia procesora CPU	Użycie procesora CPU węzła jest większe niż 90%.
Wysokie użycie pamięci węzła	Metryka platformy AKS	Procent zestawu roboczego pamięci	Użycie pamięci węzła jest większe niż 90%.
Węzeł jest w stanie NotReady	Metryka platformy AKS	Stan różnych warunków węzła	Węzeł jest w stanie NotReady przez >20 minut.
wyczerpanie portów SNAT.	Metryka modułu równoważenia obciążenia (LB)	Liczba połączeń typu SNAT	Filtr stanu połączenia = "Niepowodzenie"

Alerty dotyczące kondycji aplikacji

Scenariusz alertu	Źródło	Sygnał	Zalecany próg
Duża liczba zasobników w złej kondycji	Metryka Prometheus zarządzana przez platformę Azure	Nazwa alertu: KubePodReadyStateLow	Dostępny jako zalecany alert usługi AKS. Aby włączyć ten alert, zobacz Zalecane reguły alertów dla klastrów Kubernetes.
Co najmniej jeden zasobnik jest uruchamiany ponownie	Metryka Prometheus zarządzana przez platformę Azure	Nazwa alertu: KubePodContainerRestart	Dostępny jako zalecany alert usługi AKS. Aby włączyć ten alert, zobacz Zalecane reguły alertów dla klastrów Kubernetes.
Co najmniej jeden zasobnik ma stan CrashLoop	Metryka Prometheus zarządzana przez platformę Azure	Nazwa alertu: KubePodCrashLooping	Dostępny jako zalecany alert usługi AKS. Aby włączyć ten alert, zobacz Zalecane reguły alertów dla klastrów Kubernetes.

Alerty płaszczyzny sterowania platformy Kubernetes

Scenariusz alertu	Źródło	Sygnał	Zalecany próg
ETCD jest wypełniony	Metryka Prometheus zarządzana przez platformę Azure	etcd_mvcc_db_total_size_in_use_in_bytes	Wykorzystanie ETCD jest większe niż 2 GB
Błędy zbyt wielu żądań serwera INTERFEJSu API	Metryka Prometheus zarządzana przez platformę Azure	apiserver_request_total	Filtruj pod kątem kodu błędu 429
Błędy elementu webhook i tunelu serwera API Server	Metryka Prometheus zarządzana przez platformę Azure	apiserver_request_total	Filtruj kody błędów 500 i 503

Następne kroki

Aby uzyskać więcej informacji na temat monitorowania w usłudze AKS, zobacz następujące artykuły:

Udostępnij za pośrednictwem