Proaktivní monitorování osvědčených postupů pro službu Azure Kubernetes Service (AKS)
Tento článek popisuje osvědčené postupy pro proaktivní monitorování ve službě Azure Kubernetes Service (AKS) a poskytuje komplexní seznam klíčových signálů, které AKS doporučuje k monitorování.
Proaktivní monitorování clusterů AKS je zásadní pro snížení výpadků a úspory přerušení podnikání pro vaše aplikace. Tento proces zahrnuje identifikaci a monitorování klíčových ukazatelů neobvyklého chování ve vašem clusteru, které můžou vést k velkým problémům nebo výpadkům.
Přehled monitorování a upozorňování
Monitorování v AKS zahrnuje použití metrik, protokolů a událostí k zajištění stavu a výkonu clusteru. Mezi běžné scénáře monitorování patří výkon uzlu, stav podu a celkové využití prostředků ve vašem clusteru. Protokoly poskytují přehled o systémových událostech a operacích clusteru a aktivitách. Další informace o metodách a signálech, které AKS poskytuje pro monitorování, najdete v tématu Monitorování služby Azure Kubernetes Service (AKS).
Nejlepším způsobem, jak proaktivně monitorovat cluster, je nakonfigurovat upozornění služby Azure Monitor. Výstrahy fungují jako proaktivní opatření, která vás upozorní na potenciální problémy nebo anomálie, než se dostanou do kritických problémů. Definováním prahových hodnot pro klíčové metriky a protokoly obdržíte okamžitá upozornění, když tyto signály překročí předdefinované limity, což značí potenciální problémy, jako je vyčerpání prostředků nebo selhání aplikace. Důrazně doporučujeme definovat cíle na úrovni služeb (SLO) pro vaši aplikaci, abyste mohli měřit výkon a spolehlivost vaší služby. Konfigurace upozornění na klíčové signály pro vaše cíle úrovně služeb vám umožní rychle zjistit případné snížení kvality služeb vaší aplikace, které vaši zákazníci obdrží. Nastavení včasných upozornění umožňuje rychle prošetřit a opravit problémy, minimalizovat výpadky a zajistit vysokou dostupnost aplikací spuštěných v clusteru AKS.
Postup konfigurace upozornění na konkrétní typy metrik
Typ metriky | Kde tyto metriky najít | Konfigurace upozornění |
---|---|---|
Metrika platformy AKS | Zobrazte metriky platformy v okně Metriky na webu Azure Portal. | Upozornění na metriky můžete vytvářet, aktualizovat a odstraňovat prostřednictvím webu Azure Portal. Další informace najdete v tématu Vytvoření upozornění na metriku pro prostředek Azure. |
Metrika spravované služby Azure Prometheus | Pokud chcete získat přístup k metrikám Prometheus, musíte povolit spravované prometheus. Podrobnosti o povolení a zobrazení metrik Prometheus najdete v tématu Azure Monitor a Prometheus. | Pokyny ke konfiguraci upozornění Prometheus najdete ve spravované službě Azure Monitoru pro skupiny pravidel Prometheus. |
Protokoly aktivit Azure | Zobrazte protokoly aktivit prostřednictvím webu Azure Portal. Další informace najdete v protokolech aktivit Azure pro AKS. | Nakonfigurujte upozornění na protokoly aktivit prostřednictvím webu Azure Portal. Další informace najdete v tématu Upozornění protokolu aktivit. |
Metrika škálovací sady virtuálních počítačů Azure | Zobrazte metriky škálovací sady virtuálních počítačů prostřednictvím webu Azure Portal. | 1. Pokud chcete najít instanci škálovací sady virtuálních počítačů přidruženou k vašemu fondu uzlů, přejděte na webu Azure Portal do okna Vlastnosti nastavení > vašeho clusteru AKS. 2. Výběrem skupiny prostředků infrastruktury zobrazíte prostředky infrastruktury přidružené k vašemu clusteru. 3. Vyberte instanci škálovací sady virtuálních počítačů, která odpovídá názvu fondu uzlů, pro který vytváříte upozornění. 4. Přejděte do okna Upozornění a vytvořte upozornění na metriku. |
Metrika Load Balanceru | Zobrazte metriky nástroje pro vyrovnávání zatížení na stránce Load Balancer na webu Azure Portal. | 1. Pokud chcete najít instanci nástroje pro vyrovnávání zatížení přidruženou k vašemu fondu uzlů, přejděte na webu Azure Portal do okna Vlastnosti nastavení > vašeho clusteru AKS. 2. Výběrem skupiny prostředků infrastruktury zobrazíte prostředky infrastruktury přidružené k vašemu clusteru. 3. Vyberte instanci nástroje pro vyrovnávání zatížení a zobrazte stránku webu Azure Portal pro nástroj pro vyrovnávání zatížení. 4. Přejděte na stránku Upozornění a vytvořte upozornění na metriku nástroje pro vyrovnávání zatížení. |
Protokoly a události | Pokud chcete upozorňovat na protokoly a události, musíte povolit Container Insights. Další informace najdete v protokolech prostředků služby Azure Monitor. | Pokyny k vytváření upozornění na protokoly a události najdete v tématu Vytváření upozornění prohledávání protokolů z přehledů kontejnerů. |
Kritické signály pro konfiguraci výstrah
Pokud chcete získat holistické pokrytí prostředí AKS, musíte nakonfigurovat upozornění na tři hlavní komponenty clusteru:
- Infrastruktura clusteru: Výstrahy zaměřené na základní infrastrukturu clusteru, jako jsou uzly, disky a sítě.
- Stav aplikace: Výstrahy pro monitorování stavu podů a aplikací Mezi běžné indikátory chybných aplikací patří ukončení nedostatku paměti (OOMKills) vašich podů, podů v nepřipraveném stavu atd.
- Řídicí rovina Kubernetes: Výstrahy na řídicí rovině AKS pro monitorování stavu a výkonu serveru rozhraní API atd. a dalších komponent.
Následující části obsahují klíčové signály, které doporučujeme všem zákazníkům AKS pečlivě monitorovat. Tým AKS pracuje na přidání všech kritických signálů do existující funkce Doporučené výstrahy , která umožňuje snadno povolit výstrahy pro všechny signály pomocí funkce jedním kliknutím. Upozornění na metriky Prometheus jsou k dispozici ve verzi Public Preview ještě dnes a zbývající výstrahy se odhadují na začátku roku 2025. Prozatím můžete ručně nakonfigurovat výstrahy na kritických signálech.
Upozornění infrastruktury clusteru
Scénář upozornění | Zdroj | Signál | Doporučená prahová hodnota |
---|---|---|---|
Cluster je ve stavu selhání | Protokoly aktivit Azure | Vytvoření nebo aktualizace spravovaného clusteru | Stav protokolu se nezdařil, což znamená, že došlo k selhání akce upgradu nebo vytvoření clusteru. |
Fond uzlů je ve stavu selhání | Protokoly aktivit Azure | Vytvoření nebo aktualizace fondu agentů | Stav protokolu se nezdařil, což znamená, že fond uzlů je ve stavu selhání kvůli neúspěšné operaci vytvoření, čtení, upgradu nebo odstranění (CRUD). |
Vysoké využití šířky pásma disku s operačním systémem uzlu | Metrika škálovací sady virtuálních počítačů | Procento využité šířky pásma disku s operačním systémem | Využití šířky pásma disku s operačním systémem uzlu je vyšší než 95 %. |
Využití IOPS disku s vysokým uzlem | Metrika škálovací sady virtuálních počítačů | Procento využitých IOPS disku s operačním systémem | Využití IOPS disku s operačním systémem uzlu je vyšší než 95 %. |
Vysoké využití místa na disku s operačním systémem uzlu | Metrika platformy AKS | Procento využitých disků | Procento využití místa na disku s operačním systémem uzlu je vyšší než 90 %. |
Vysoké využití procesoru uzlu | Metrika platformy AKS | Procento využití procesoru | Využití procesoru uzlu je větší než 90 %. |
Vysoké využití paměti uzlu | Metrika platformy AKS | Procento pracovní sady paměti | Využití paměti uzlu je větší než 90 %. |
Uzel je ve stavu NotReady | Metrika platformy AKS | Stav pro různé podmínky uzlu | Uzel je ve stavu NotReady po dobu >20 minut. |
Problémy s vyčerpáním portů SNAT | Metrika nástroje pro vyrovnávání zatížení (LB) | Počet připojení SNAT | Filtr pro stav připojení = "Selhání" |
Upozornění na stav aplikace
Scénář upozornění | Zdroj | Signál | Doporučená prahová hodnota |
---|---|---|---|
Velký počet podů, které nejsou v pořádku | Metrika spravované služby Azure Prometheus | Název upozornění: KubePodReadyStateLow | K dispozici jako doporučená výstraha AKS. Pokud chcete tuto výstrahu povolit, podívejte se na doporučené pravidla upozornění pro clustery Kubernetes. |
Restartuje se jeden nebo více podů. | Metrika spravované služby Azure Prometheus | Název upozornění: KubePodContainerRestart | K dispozici jako doporučená výstraha AKS. Pokud chcete tuto výstrahu povolit, podívejte se na doporučené pravidla upozornění pro clustery Kubernetes. |
Jeden nebo více podů je ve stavu CrashLoop | Metrika spravované služby Azure Prometheus | Název upozornění: KubePodCrashLooping | K dispozici jako doporučená výstraha AKS. Pokud chcete tuto výstrahu povolit, podívejte se na doporučené pravidla upozornění pro clustery Kubernetes. |
Upozornění řídicí roviny Kubernetes
Scénář upozornění | Zdroj | Signál | Doporučená prahová hodnota |
---|---|---|---|
EtcD je vyplněno | Metrika spravované služby Azure Prometheus | etcd_mvcc_db_total_size_in_use_in_bytes | Využití ETCD je větší než 2 GB |
Chyby kvůli příliš velkému počtu požadavků serveru API | Metrika spravované služby Azure Prometheus | apiserver_request_total | Filtr pro kód chyby 429 |
Chyby webhooku a tunelového propojení serveru API | Metrika spravované služby Azure Prometheus | apiserver_request_total | Filtrování kódů chyb 500 a 503 |
Další kroky
Další informace o monitorování v AKS najdete v následujících článcích:
Azure Kubernetes Service