Proaktivní monitorování osvědčených postupů pro službu Azure Kubernetes Service (AKS)

Článek
11/11/2024

Tento článek popisuje osvědčené postupy pro proaktivní monitorování ve službě Azure Kubernetes Service (AKS) a poskytuje komplexní seznam klíčových signálů, které AKS doporučuje k monitorování.

Proaktivní monitorování clusterů AKS je zásadní pro snížení výpadků a úspory přerušení podnikání pro vaše aplikace. Tento proces zahrnuje identifikaci a monitorování klíčových ukazatelů neobvyklého chování ve vašem clusteru, které můžou vést k velkým problémům nebo výpadkům.

Přehled monitorování a upozorňování

Monitorování v AKS zahrnuje použití metrik, protokolů a událostí k zajištění stavu a výkonu clusteru. Mezi běžné scénáře monitorování patří výkon uzlu, stav podu a celkové využití prostředků ve vašem clusteru. Protokoly poskytují přehled o systémových událostech a operacích clusteru a aktivitách. Další informace o metodách a signálech, které AKS poskytuje pro monitorování, najdete v tématu Monitorování služby Azure Kubernetes Service (AKS).

Nejlepším způsobem, jak proaktivně monitorovat cluster, je nakonfigurovat upozornění služby Azure Monitor. Výstrahy fungují jako proaktivní opatření, která vás upozorní na potenciální problémy nebo anomálie, než se dostanou do kritických problémů. Definováním prahových hodnot pro klíčové metriky a protokoly obdržíte okamžitá upozornění, když tyto signály překročí předdefinované limity, což značí potenciální problémy, jako je vyčerpání prostředků nebo selhání aplikace. Důrazně doporučujeme definovat cíle na úrovni služeb (SLO) pro vaši aplikaci, abyste mohli měřit výkon a spolehlivost vaší služby. Konfigurace upozornění na klíčové signály pro vaše cíle úrovně služeb vám umožní rychle zjistit případné snížení kvality služeb vaší aplikace, které vaši zákazníci obdrží. Nastavení včasných upozornění umožňuje rychle prošetřit a opravit problémy, minimalizovat výpadky a zajistit vysokou dostupnost aplikací spuštěných v clusteru AKS.

Postup konfigurace upozornění na konkrétní typy metrik

Typ metriky	Kde tyto metriky najít	Konfigurace upozornění
Metrika platformy AKS	Zobrazte metriky platformy v okně Metriky na webu Azure Portal.	Upozornění na metriky můžete vytvářet, aktualizovat a odstraňovat prostřednictvím webu Azure Portal. Další informace najdete v tématu Vytvoření upozornění na metriku pro prostředek Azure.
Metrika spravované služby Azure Prometheus	Pokud chcete získat přístup k metrikám Prometheus, musíte povolit spravované prometheus. Podrobnosti o povolení a zobrazení metrik Prometheus najdete v tématu Azure Monitor a Prometheus.	Pokyny ke konfiguraci upozornění Prometheus najdete ve spravované službě Azure Monitoru pro skupiny pravidel Prometheus.
Protokoly aktivit Azure	Zobrazte protokoly aktivit prostřednictvím webu Azure Portal. Další informace najdete v protokolech aktivit Azure pro AKS.	Nakonfigurujte upozornění na protokoly aktivit prostřednictvím webu Azure Portal. Další informace najdete v tématu Upozornění protokolu aktivit.
Metrika škálovací sady virtuálních počítačů Azure	Zobrazte metriky škálovací sady virtuálních počítačů prostřednictvím webu Azure Portal.	1. Pokud chcete najít instanci škálovací sady virtuálních počítačů přidruženou k vašemu fondu uzlů, přejděte na webu Azure Portal do okna Vlastnosti nastavení > vašeho clusteru AKS. 2. Výběrem skupiny prostředků infrastruktury zobrazíte prostředky infrastruktury přidružené k vašemu clusteru. 3. Vyberte instanci škálovací sady virtuálních počítačů, která odpovídá názvu fondu uzlů, pro který vytváříte upozornění. 4. Přejděte do okna Upozornění a vytvořte upozornění na metriku.
Metrika Load Balanceru	Zobrazte metriky nástroje pro vyrovnávání zatížení na stránce Load Balancer na webu Azure Portal.	1. Pokud chcete najít instanci nástroje pro vyrovnávání zatížení přidruženou k vašemu fondu uzlů, přejděte na webu Azure Portal do okna Vlastnosti nastavení > vašeho clusteru AKS. 2. Výběrem skupiny prostředků infrastruktury zobrazíte prostředky infrastruktury přidružené k vašemu clusteru. 3. Vyberte instanci nástroje pro vyrovnávání zatížení a zobrazte stránku webu Azure Portal pro nástroj pro vyrovnávání zatížení. 4. Přejděte na stránku Upozornění a vytvořte upozornění na metriku nástroje pro vyrovnávání zatížení.
Protokoly a události	Pokud chcete upozorňovat na protokoly a události, musíte povolit Container Insights. Další informace najdete v protokolech prostředků služby Azure Monitor.	Pokyny k vytváření upozornění na protokoly a události najdete v tématu Vytváření upozornění prohledávání protokolů z přehledů kontejnerů.

Kritické signály pro konfiguraci výstrah

Pokud chcete získat holistické pokrytí prostředí AKS, musíte nakonfigurovat upozornění na tři hlavní komponenty clusteru:

Infrastruktura clusteru: Výstrahy zaměřené na základní infrastrukturu clusteru, jako jsou uzly, disky a sítě.
Stav aplikace: Výstrahy pro monitorování stavu podů a aplikací Mezi běžné indikátory chybných aplikací patří ukončení nedostatku paměti (OOMKills) vašich podů, podů v nepřipraveném stavu atd.
Řídicí rovina Kubernetes: Výstrahy na řídicí rovině AKS pro monitorování stavu a výkonu serveru rozhraní API atd. a dalších komponent.

Následující části obsahují klíčové signály, které doporučujeme všem zákazníkům AKS pečlivě monitorovat. Tým AKS pracuje na přidání všech kritických signálů do existující funkce Doporučené výstrahy , která umožňuje snadno povolit výstrahy pro všechny signály pomocí funkce jedním kliknutím. Upozornění na metriky Prometheus jsou k dispozici ve verzi Public Preview ještě dnes a zbývající výstrahy se odhadují na začátku roku 2025. Prozatím můžete ručně nakonfigurovat výstrahy na kritických signálech.

Upozornění infrastruktury clusteru

Scénář upozornění	Zdroj	Signál	Doporučená prahová hodnota
Cluster je ve stavu selhání	Protokoly aktivit Azure	Vytvoření nebo aktualizace spravovaného clusteru	Stav protokolu se nezdařil, což znamená, že došlo k selhání akce upgradu nebo vytvoření clusteru.
Fond uzlů je ve stavu selhání	Protokoly aktivit Azure	Vytvoření nebo aktualizace fondu agentů	Stav protokolu se nezdařil, což znamená, že fond uzlů je ve stavu selhání kvůli neúspěšné operaci vytvoření, čtení, upgradu nebo odstranění (CRUD).
Vysoké využití šířky pásma disku s operačním systémem uzlu	Metrika škálovací sady virtuálních počítačů	Procento využité šířky pásma disku s operačním systémem	Využití šířky pásma disku s operačním systémem uzlu je vyšší než 95 %.
Využití IOPS disku s vysokým uzlem	Metrika škálovací sady virtuálních počítačů	Procento využitých IOPS disku s operačním systémem	Využití IOPS disku s operačním systémem uzlu je vyšší než 95 %.
Vysoké využití místa na disku s operačním systémem uzlu	Metrika platformy AKS	Procento využitých disků	Procento využití místa na disku s operačním systémem uzlu je vyšší než 90 %.
Vysoké využití procesoru uzlu	Metrika platformy AKS	Procento využití procesoru	Využití procesoru uzlu je větší než 90 %.
Vysoké využití paměti uzlu	Metrika platformy AKS	Procento pracovní sady paměti	Využití paměti uzlu je větší než 90 %.
Uzel je ve stavu NotReady	Metrika platformy AKS	Stav pro různé podmínky uzlu	Uzel je ve stavu NotReady po dobu >20 minut.
Problémy s vyčerpáním portů SNAT	Metrika nástroje pro vyrovnávání zatížení (LB)	Počet připojení SNAT	Filtr pro stav připojení = "Selhání"

Upozornění na stav aplikace

Scénář upozornění	Zdroj	Signál	Doporučená prahová hodnota
Velký počet podů, které nejsou v pořádku	Metrika spravované služby Azure Prometheus	Název upozornění: KubePodReadyStateLow	K dispozici jako doporučená výstraha AKS. Pokud chcete tuto výstrahu povolit, podívejte se na doporučené pravidla upozornění pro clustery Kubernetes.
Restartuje se jeden nebo více podů.	Metrika spravované služby Azure Prometheus	Název upozornění: KubePodContainerRestart	K dispozici jako doporučená výstraha AKS. Pokud chcete tuto výstrahu povolit, podívejte se na doporučené pravidla upozornění pro clustery Kubernetes.
Jeden nebo více podů je ve stavu CrashLoop	Metrika spravované služby Azure Prometheus	Název upozornění: KubePodCrashLooping	K dispozici jako doporučená výstraha AKS. Pokud chcete tuto výstrahu povolit, podívejte se na doporučené pravidla upozornění pro clustery Kubernetes.

Upozornění řídicí roviny Kubernetes

Scénář upozornění	Zdroj	Signál	Doporučená prahová hodnota
EtcD je vyplněno	Metrika spravované služby Azure Prometheus	etcd_mvcc_db_total_size_in_use_in_bytes	Využití ETCD je větší než 2 GB
Chyby kvůli příliš velkému počtu požadavků serveru API	Metrika spravované služby Azure Prometheus	apiserver_request_total	Filtr pro kód chyby 429
Chyby webhooku a tunelového propojení serveru API	Metrika spravované služby Azure Prometheus	apiserver_request_total	Filtrování kódů chyb 500 a 503

Další kroky

Další informace o monitorování v AKS najdete v následujících článcích:

Sdílet prostřednictvím