Najlepsze rozwiązania dotyczące proaktywnego monitorowania dla usługi Azure Kubernetes Service (AKS)
W tym artykule opisano najlepsze rozwiązania dotyczące proaktywnego monitorowania w usłudze Azure Kubernetes Service (AKS) i przedstawiono kompleksową listę kluczowych sygnałów, które usługa AKS zaleca do monitorowania.
Aktywne monitorowanie klastrów usługi AKS ma kluczowe znaczenie dla zmniejszenia przestojów i zaoszczędzenia przerw w działaniu aplikacji. Ten proces obejmuje identyfikowanie i monitorowanie kluczowych wskaźników nietypowego zachowania w klastrze, które mogą prowadzić do poważnych problemów lub przestojów.
Omówienie monitorowania i zgłaszania alertów
Monitorowanie w usłudze AKS obejmuje używanie metryk, dzienników i zdarzeń w celu zapewnienia kondycji i wydajności klastra. Typowe scenariusze monitorowania obejmują wydajność węzła, stan zasobnika i ogólne wykorzystanie zasobów w klastrze. Dzienniki zapewniają wgląd w zdarzenia systemowe i operacje i działania klastra. Aby uzyskać więcej informacji na temat metod i sygnałów zapewnianych przez usługę AKS do monitorowania, zobacz Monitorowanie usługi Azure Kubernetes Service (AKS).
Najlepszym sposobem proaktywnego monitorowania klastra jest skonfigurowanie alertów usługi Azure Monitor. Alerty działają jako proaktywne środki, aby powiadomić o potencjalnych problemach lub anomaliach przed ich eskalacją do krytycznych problemów. Definiując progi kluczowych metryk i dzienników, otrzymujesz natychmiastowe alerty, gdy te sygnały przekraczają wstępnie zdefiniowane limity, co wskazuje potencjalne problemy, takie jak wyczerpanie zasobów lub błędy aplikacji. Zdecydowanie zalecamy zdefiniowanie celów poziomu usług (SLO) dla aplikacji w celu mierzenia wydajności i niezawodności usługi. Skonfigurowanie alertów dotyczących kluczowych sygnałów dla celów SLO umożliwia szybkie wykrywanie pogorszenia jakości usług aplikacji otrzymywanych przez klientów. Ogólnie rzecz biorąc, ustawienie alertów terminowych umożliwia szybkie badanie i korygowanie problemów, minimalizację przestojów i zapewnienie wysokiej dostępności aplikacji działających w klastrze usługi AKS.
Jak skonfigurować alerty dotyczące określonych typów metryk
Typ metryki | Gdzie znaleźć te metryki | Jak skonfigurować alerty |
---|---|---|
Metryka platformy AKS | Wyświetlanie metryk platformy za pomocą bloku Metryki w witrynie Azure Portal. | Alerty metryk można tworzyć, aktualizować i usuwać za pośrednictwem witryny Azure Portal. Aby uzyskać więcej informacji, zobacz Tworzenie alertu dotyczącego metryk dla zasobu platformy Azure. |
Metryka Prometheus zarządzana przez platformę Azure | Aby uzyskać dostęp do metryk rozwiązania Prometheus, musisz włączyć zarządzany prometheus. Aby uzyskać szczegółowe informacje na temat włączania i wyświetlania metryk rozwiązania Prometheus, zobacz Azure Monitor i Prometheus. | Aby uzyskać wskazówki dotyczące konfigurowania alertów rozwiązania Prometheus, zobacz Usługa zarządzana usługi Azure Monitor dla grup reguł rozwiązania Prometheus. |
Dzienniki aktywności platformy Azure | Wyświetlanie dzienników aktywności za pośrednictwem witryny Azure Portal. Aby uzyskać więcej informacji, zobacz Dzienniki aktywności platformy Azure dla usługi AKS. | Konfigurowanie alertów dotyczących dzienników aktywności za pośrednictwem witryny Azure Portal. Aby uzyskać więcej informacji, zobacz Alerty dziennika aktywności. |
Metryka zestawu skalowania maszyn wirtualnych platformy Azure | Wyświetl metryki zestawu skalowania maszyn wirtualnych za pośrednictwem witryny Azure Portal. | 1. Aby znaleźć wystąpienie zestawu skalowania maszyn wirtualnych skojarzone z pulą węzłów, przejdź do bloku Właściwości ustawień > klastra usługi AKS w witrynie Azure Portal. 2. Wybierz grupę zasobów infrastruktury, aby wyświetlić zasoby infrastruktury skojarzone z klastrem. 3. Wybierz wystąpienie zestawu skalowania maszyn wirtualnych zgodne z nazwą puli węzłów, dla której tworzysz alerty. 4. Przejdź do bloku Alerty , aby utworzyć alert dotyczący metryki. |
Metryka modułu równoważenia obciążenia | Wyświetlanie metryk modułu równoważenia obciążenia za pośrednictwem strony modułu równoważenia obciążenia w witrynie Azure Portal. | 1. Aby znaleźć wystąpienie modułu równoważenia obciążenia skojarzone z pulą węzłów, przejdź do bloku Właściwości ustawień > klastra usługi AKS w witrynie Azure Portal. 2. Wybierz grupę zasobów infrastruktury, aby wyświetlić zasoby infrastruktury skojarzone z klastrem. 3. Wybierz wystąpienie modułu równoważenia obciążenia, aby wyświetlić stronę witryny Azure Portal dla modułu równoważenia obciążenia. 4. Przejdź do strony Alerty , aby utworzyć alert dotyczący metryki modułu równoważenia obciążenia. |
Dzienniki i zdarzenia | Aby otrzymywać alerty dotyczące dzienników i zdarzeń, należy włączyć usługę Container Insights. Aby uzyskać więcej informacji, zobacz Dzienniki zasobów usługi Azure Monitor. | Aby uzyskać wskazówki dotyczące tworzenia alertów dotyczących dzienników i zdarzeń, zobacz Tworzenie alertów przeszukiwania dzienników z usługi Container Insights. |
Sygnały krytyczne do konfigurowania alertów
Aby uzyskać całościowe pokrycie środowiska usługi AKS, należy skonfigurować alerty dla trzech głównych składników klastra:
- Infrastruktura klastra: alerty przeznaczone dla podstawowej infrastruktury klastra, takie jak węzły, dyski i sieć.
- Kondycja aplikacji: alerty dotyczące monitorowania kondycji zasobników i aplikacji. Niektóre typowe wskaźniki złej kondycji aplikacji obejmują poza pamięcią (OOMKills) zasobników, zasobników w stanie braku gotowości itp.
- Płaszczyzna sterowania platformy Kubernetes: alerty na płaszczyźnie sterowania usługi AKS w celu monitorowania kondycji i wydajności serwera interfejsu API itp. oraz innych składników.
W poniższych sekcjach znajdują się kluczowe sygnały, które zalecamy ścisłe monitorowanie wszystkich klientów usługi AKS. Zespół usługi AKS pracuje nad dodaniem wszystkich sygnałów krytycznych do istniejącej funkcji Zalecanych alertów , co umożliwia łatwe włączanie alertów dla wszystkich sygnałów ze środowiskiem jednym kliknięciem. Alerty metryk Rozwiązania Prometheus są obecnie dostępne w publicznej wersji zapoznawczej, a pozostałe alerty są szacowane na dostępność na początku 2025 r. Na razie można ręcznie skonfigurować alerty dotyczące sygnałów krytycznych.
Alerty dotyczące infrastruktury klastra
Scenariusz alertu | Źródło | Sygnał | Zalecany próg |
---|---|---|---|
Klaster jest w stanie niepowodzenia | Dzienniki aktywności platformy Azure | Tworzenie lub aktualizowanie klastra zarządzanego | Stan dziennika to Niepowodzenie, co oznacza, że akcja uaktualniania lub tworzenia klastra nie powiodła się. |
Pula węzłów jest w stanie niepowodzenia | Dzienniki aktywności platformy Azure | Tworzenie lub aktualizowanie puli agentów | Stan dziennika to Niepowodzenie, co wskazuje, że pula węzłów jest w stanie Niepowodzenie z powodu nieudanej operacji tworzenia, odczytu, uaktualniania lub usuwania (CRUD). |
Wysokie użycie przepustowości dysku systemu operacyjnego Węzła | Metryka zestawu skalowania maszyn wirtualnych | Procent zużycia przepustowości dysku systemu operacyjnego | Wykorzystanie przepustowości dysku systemu operacyjnego Węzła wynosi powyżej 95%. |
Wysokie użycie operacji we/wy na sekundę dysku systemu operacyjnego węzła | Metryka zestawu skalowania maszyn wirtualnych | Procent zużycia operacji we/wy dysku systemu operacyjnego na sekundę | Wykorzystanie operacji we/wy na sekundę dysku systemu operacyjnego węzła wynosi powyżej 95%. |
Wysokie użycie miejsca na dysku systemu operacyjnego Węzła | Metryka platformy AKS | Procent użycia dysku | Procentowe wykorzystanie miejsca na dysku systemu operacyjnego Węzła wynosi powyżej 90%. |
Wysokie użycie procesora CPU węzła | Metryka platformy AKS | Procent użycia procesora CPU | Użycie procesora CPU węzła jest większe niż 90%. |
Wysokie użycie pamięci węzła | Metryka platformy AKS | Procent zestawu roboczego pamięci | Użycie pamięci węzła jest większe niż 90%. |
Węzeł jest w stanie NotReady | Metryka platformy AKS | Stan różnych warunków węzła | Węzeł jest w stanie NotReady przez >20 minut. |
wyczerpanie portów SNAT. | Metryka modułu równoważenia obciążenia (LB) | Liczba połączeń typu SNAT | Filtr stanu połączenia = "Niepowodzenie" |
Alerty dotyczące kondycji aplikacji
Scenariusz alertu | Źródło | Sygnał | Zalecany próg |
---|---|---|---|
Duża liczba zasobników w złej kondycji | Metryka Prometheus zarządzana przez platformę Azure | Nazwa alertu: KubePodReadyStateLow | Dostępny jako zalecany alert usługi AKS. Aby włączyć ten alert, zobacz Zalecane reguły alertów dla klastrów Kubernetes. |
Co najmniej jeden zasobnik jest uruchamiany ponownie | Metryka Prometheus zarządzana przez platformę Azure | Nazwa alertu: KubePodContainerRestart | Dostępny jako zalecany alert usługi AKS. Aby włączyć ten alert, zobacz Zalecane reguły alertów dla klastrów Kubernetes. |
Co najmniej jeden zasobnik ma stan CrashLoop | Metryka Prometheus zarządzana przez platformę Azure | Nazwa alertu: KubePodCrashLooping | Dostępny jako zalecany alert usługi AKS. Aby włączyć ten alert, zobacz Zalecane reguły alertów dla klastrów Kubernetes. |
Alerty płaszczyzny sterowania platformy Kubernetes
Scenariusz alertu | Źródło | Sygnał | Zalecany próg |
---|---|---|---|
ETCD jest wypełniony | Metryka Prometheus zarządzana przez platformę Azure | etcd_mvcc_db_total_size_in_use_in_bytes | Wykorzystanie ETCD jest większe niż 2 GB |
Błędy zbyt wielu żądań serwera INTERFEJSu API | Metryka Prometheus zarządzana przez platformę Azure | apiserver_request_total | Filtruj pod kątem kodu błędu 429 |
Błędy elementu webhook i tunelu serwera API Server | Metryka Prometheus zarządzana przez platformę Azure | apiserver_request_total | Filtruj kody błędów 500 i 503 |
Następne kroki
Aby uzyskać więcej informacji na temat monitorowania w usłudze AKS, zobacz następujące artykuły:
Azure Kubernetes Service