評估 AKS 叢集健康情況
本文是一系列文章的一部分。 從概 觀 開始。
若要開始分級練習,請評估叢集和網路的整體健康情況。
工具
有許多工具和功能可用來診斷和解決 Azure Kubernetes Service (AKS) 叢集中的問題。
在Azure 入口網站中,選取您的 AKS 叢集資源。 這些工具和功能位於流覽窗格中。
診斷並解決問題 :您可以使用此工具來協助識別和解決叢集內的問題。
資源健康狀態 :您可以使用此工具來協助診斷及取得可能會影響 Azure 資源之服務問題的支援。 此工具提供您資源目前和過去健康狀態的相關資訊。
Advisor 建議 : Azure Advisor 可作為個人化雲端顧問,引導您遵循優化 Azure 部署的最佳做法。 您可以使用 Advisor 來分析您的資源組態和使用方式遙測。 Advisor 建議解決方案,讓您可以增強成本效益、效能、可靠性和安全性。
記錄 :使用這項功能來存取儲存在 Log Analytics 工作區中的 叢集記錄和計量。 您可以監視和分析叢集的記錄和計量,以提供深入解析並改善疑難排解。
使用這些工具和功能,讓您可以有效地診斷和解決問題、優化 AKS 叢集部署,以及監視 Azure 資源的健康情況和效能。
診斷並解決問題
診斷 和解決問題 功能提供完整的工具套件,可協助識別和解決與叢集相關的各種問題。 選取與您的問題最相關的疑難排解類別。
若要檢查叢集健康情況,您可以選擇:
- 叢集和控制平面可用性和效能 :檢查是否有任何服務可用性或節流問題會影響叢集健康情況。
- 連線性問題 :檢查叢集網域名稱系統 (DNS) 解析是否有錯誤,或輸出通訊路由是否有連線問題。
資源健康情況
使用資源健康狀態 功能來識別並取得可能會影響叢集健康情況的叢集問題和服務問題的支援。 設定資源警示,讓您可以輕鬆地監視叢集的健康情況。 資源健康狀態功能會提供叢集目前和過去健康情況的報告。 健康狀態有四種:
可用 :此狀態表示未偵測到任何影響叢集健康情況的事件。 如果叢集在過去 24 小時內從非計劃性停機中復原, 則會出現最近解決的 通知。
無法使用 :此狀態表示已偵測到影響叢集健全狀況的持續平臺或非平臺事件。
未知 :此狀態表示此功能在 10 分鐘內未收到任何有關資源的資訊。 此狀態通常會在虛擬機器解除配置時出現。 此狀態不是資源狀態的明確指示,但可能是疑難排解的實用資料點。
降級 :此狀態表示叢集的效能遺失,但叢集仍可供使用。
下列螢幕擷取畫面顯示資源健康狀態概觀。
如需詳細資訊,請參閱 Azure 資源健康狀態概觀 。
Advisor
Advisor 提供可採取動作的建議,可協助您將 AKS 叢集優化,以提供可靠性、安全性、卓越營運和效能效率。 您可以使用 Advisor 主動改善叢集的效能,並避免潛在的問題。 選取建議,以取得如何優化叢集的詳細資訊。
下列螢幕擷取畫面顯示所選建議的資源。
如需詳細資訊,請參閱 Advisor 概觀 。
Log Analytics
Log Analytics 提供叢集健康情況的深入解析。 若要存取 Log Analytics 工作區 ,請移至您的 AKS 叢集,然後選取 流覽窗格中的 [記錄 ]。
您可以選擇預先定義的查詢來分析叢集健康情況。
使用內建查詢來查詢 Log Analytics 工作區中收集的記錄和計量。 下列清單描述可用性、容器記錄和診斷類別中某些查詢的函式。
可用性
每個節點 的整備狀態查詢:依整備狀態檢視叢集中所有節點的計數。
列出具有階段查詢的所有 Pod 計數:依階段 檢視所有 Pod 的計數,例如失敗、擱置、未知、執行中或成功。
容器記錄
在容器記錄資料表 查詢中尋找值:在 LogEntry 具有指定字串參數的 ContainerLogs 資料表中尋找資料列。
列出每個命名空間 的容器記錄查詢:從叢集中的命名空間檢視容器記錄。
診斷
叢集自動調整程式記錄 查詢:查詢叢集自動調整程式中的記錄。 此查詢可以提供叢集為何意外相應增加或減少的相關資訊。
Kubernetes API 伺服器記錄 查詢:從 Kubernetes API 伺服器查詢記錄。
映射清查 查詢:列出所有容器映射及其狀態。
每個節點 查詢每秒讀取 Prometheus 磁片:以時間圖檢視預設 Kubernetes 命名空間的 Prometheus 磁片讀取計量。
實例平均 CPU 使用量從上周 查詢:依實例顯示過去一周的平均 CPU 成長,依遞減順序顯示。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- Paolo Salvatori |首席客戶工程師
- 法蘭西斯·西米·納紮雷斯 |資深技術專家
其他參與者:
- 張榮 |資深產品經理
若要查看非公用LinkedIn設定檔,請登入 LinkedIn。