Azure Kubernetes Service (AKS) の積極的監視のベストプラクティス

[アーティクル]
11/11/2024

この記事では、Azure Kubernetes Service (AKS) での積極的な監視のベストプラクティスについて説明し、AKS で監視することが推奨される重要なシグナルの包括的なリストを提供します。

AKS クラスターの積極的な監視は、ダウンタイムを減らし、アプリケーションのビジネスの中断を減らす上で重要です。このプロセスには、重大な問題やダウンタイムにつながる可能性があるクラスター内の異常な動作の主要なインジケーターの特定と監視が含まれます。

監視とアラートの概要

AKS での監視では、メトリック、ログ、イベントを使用して、クラスターの正常性とパフォーマンスを確保する必要があります。監視の一般的なシナリオには、ノードのパフォーマンス、ポッドの状態、クラスター内の全体的なリソース利用が含まれます。ログは、システムイベントとクラスターの操作とアクティビティに関する分析情報を提供します。 AKS が提供する監視用のメソッドとシグナルの詳細については、「Azure Kubernetes Service (AKS) の監視」を参照してください。

クラスターを積極的に監視する最善の方法は、Azure Monitor アラートを構成することです。アラートは、潜在的な問題や異常が重大な問題にエスカレートする前に、ユーザーにそれらに関する通知を行うための予防的な対策として機能します。主要なメトリックとログのしきい値を定義することで、これらのシグナルが定義済みの制限を超え、リソースの枯渇やアプリケーション障害などの問題の可能性が示唆される場合に、即座のアラートを受け取ることができます。サービスのパフォーマンスと信頼性を測定するために、アプリケーションに対するサービスレベル目標 (SLO) を定義することを強くお勧めします。 SLO の主要なシグナルに対してアラートを構成することで、顧客にとってのアプリケーションのサービス品質の低下をすばやく検出できます。全体として、タイムリーなアラートを設定することで、問題をすばやく調査して修復し、ダウンタイムを最小限に抑え、AKS クラスターで実行されているアプリケーションの高可用性を確保できます。

特定のメトリックの種類に対してアラートを構成する方法

メトリックの種類	これらのメトリックの場所	アラートを構成する方法
AKS プラットフォームメトリック	Azure portal の [メトリック] ブレードを通してプラットフォームメトリックを表示します。	メトリックアラートの作成、更新、削除は、Azure portal を通して行うことができます。詳細については、「Azure リソースのメトリックアラートを作成する」を参照してください。
Azure Managed Prometheus メトリック	Prometheus メトリックにアクセスするには、Managed Prometheus を有効にする必要があります。 Prometheus メトリックを有効にして表示する方法の詳細については、「Azure Monitor と Prometheus」を参照してください。	Prometheus アラートの構成に関するガイダンスについては、「Prometheus 用 Azure Monitor マネージドサービスのルールグループ」を参照してください。
Azure Activity Logs	Azure portal を通してアクティビティログを表示します。詳細については、「AKS に関する Azure アクティビティログ」を参照してください。	Azure portal を通してアクティビティログに対するアラートを構成します。詳細については、「アクティビティログアラート」をご覧ください。
Azure 仮想マシンスケールセットメトリック	Azure portal を通して仮想マシンスケールセットメトリックを表示します。	1.ノードプールに関連付けられている仮想マシンスケールセットインスタンスを見つけるには、Azure portal で AKS クラスターの [設定] > [プロパティ] ブレードに移動します。 2.インフラストラクチャリソースグループを選択して、クラスターに関連付けられているインフラストラクチャリソースを表示します。 3.アラートを作成する対象のノードプールの名前と一致する仮想マシンスケールセットインスタンスを選択します。 4.[アラート] ブレードに移動してメトリックアラートを作成します。
ロードバランサーメトリック	Azure portal の [ロードバランサー] ページを通してロードバランサーメトリックを表示します。	1.ノードプールに関連付けられているロードバランサーインスタンスを見つけるには、Azure portal で AKS クラスターの [設定] > [プロパティ] ブレードに移動します。 2.インフラストラクチャリソースグループを選択して、クラスターに関連付けられているインフラストラクチャリソースを表示します。 3.ロードバランサーインスタンスを選択して、ロードバランサーの Azure portal ページを表示します。 4.[アラート] ページに移動して、ロードバランサーメトリックアラートを作成します。
ログとイベント	ログとイベントに関するアラートを行うには、Container Insights を有効にする必要があります。詳細については、「Azure Monitor リソースログ」を参照してください。	ログとイベントに関するアラートの作成に関するガイダンスについては、「Container Insights からのログ検索アラートの作成」を参照してください。

アラートを構成するための重要なシグナル

AKS 環境を包括的にカバーするには、以下に示すクラスターの 3 つの主要なコンポーネントでアラートを構成する必要があります。

クラスターインフラストラクチャ: ノード、ディスク、ネットワークなどのクラスターの基盤インフラストラクチャを対象とするアラート。
アプリケーションの正常性: ポッドとアプリケーションの正常性を監視するためのアラート。異常なアプリケーションの一般的なインジケーターには、ポッドのメモリ不足による強制終了 (OOMKills) や、準備ができていない状態のポッドなどがあります。
Kubernetes コントロールプレーン: API サーバー、etcd、その他のコンポーネントの正常性とパフォーマンスを監視するための AKS コントロールプレーンに関するアラート。

以下のセクションには、すべての AKS のお客様が注意深く監視することが推奨される重要なシグナルが含まれています。 AKS チームは、すべての重要なシグナルを、ワンクリックエクスペリエンスですべてのシグナルに関するアラートを簡単に有効にすることができる既存の推奨アラート機能に追加するよう取り組んでいます。 Prometheus メトリックアラートは現在パブリックプレビューで利用でき、残りのアラートは 2025 年初頭に利用可能になる予定です。現時点では、重要なシグナルに関するアラートは手動で構成することができます。

クラスターインフラストラクチャアラート

アラートシナリオ	ソース	Signal	推奨されるしきい値
クラスターが失敗状態	Azure Activity Logs	マネージドクラスターの作成または更新	ログの状態は "失敗" であり、クラスターのアップグレードまたは作成のアクションが失敗したことを示しています。
ノードプールが失敗状態	Azure Activity Logs	エージェントプールを作成または更新する	ログの状態は "失敗" であり、作成、読み取り、アップグレード、削除 (CRUD) 操作のいずれかの失敗が原因で、ノードプールが失敗状態であることを示しています。
ノード OS ディスクによる高い帯域幅の使用率	仮想マシンスケールセットメトリック	OS ディスク帯域幅の消費率	ノード OS ディスクの帯域幅使用率が 95% を超えています。
ノード OS ディスクによる高い IOPS の使用率	仮想マシンスケールセットメトリック	[OS Disk IOPS Consumed Percentage](OS ディスク IOPS の消費率)	ノード OS ディスクの IOPS 使用率が 95% を超えています。
ノード OS ディスクによる高い領域の使用率	AKS プラットフォームメトリック	ディスク使用率	ノード OS ディスク領域の使用率が 90% を超えています。
高いノード CPU 使用率	AKS プラットフォームメトリック	CPU 使用率 (%)	ノード CPU 使用率が 90% を超えています。
高いノードメモリ使用率	AKS プラットフォームメトリック	メモリワーキングセットの割合 (%)	ノードメモリ使用率が 90% を超えています。
ノードが NotReady 状態である	AKS プラットフォームメトリック	さまざまなノード条件の状態	ノードが 20 分間以上 NotReady 状態になっています。
SNAT ポートの枯渇	ロードバランサー (LB) メトリック	SNAT Connection Count (SNAT 接続数)	接続 = "失敗" のフィルター

アプリケーション正常性アラート

アラートシナリオ	ソース	Signal	推奨されるしきい値
異常なポッドの数が多い	Azure Managed Prometheus メトリック	アラート名: KubePodReadyStateLow	AKS 推奨アラートとして利用できます。このアラートを有効にするには、「Kubernetes クラスターで推奨されるアラートルール」を参照してください。
1 つ以上のポッドが再起動中	Azure Managed Prometheus メトリック	アラート名: KubePodContainerRestart	AKS 推奨アラートとして利用できます。このアラートを有効にするには、「Kubernetes クラスターで推奨されるアラートルール」を参照してください。
1 つ以上のポッドが CrashLoop 状態である	Azure Managed Prometheus メトリック	アラート名: KubePodCrashLooping	AKS 推奨アラートとして利用できます。このアラートを有効にするには、「Kubernetes クラスターで推奨されるアラートルール」を参照してください。

Kubernetes コントロールプレーンアラート

アラートシナリオ	ソース	Signal	推奨されるしきい値
ETCD が容量オーバー	Azure Managed Prometheus メトリック	etcd_mvcc_db_total_size_in_use_in_bytes	ETCD 使用量が 2 GB を超えている
API サーバー過剰要求エラー	Azure Managed Prometheus メトリック	apiserver_request_total	エラーコード 429 のフィルター
API サーバーの Webhook とトンネルのエラー	Azure Managed Prometheus メトリック	apiserver_request_total	エラーコード 500 と 503 のフィルター

次のステップ

AKS の監視については、以下の記事をご覧ください。

次の方法で共有

Azure Kubernetes Service (AKS) の積極的監視のベストプラクティス

監視とアラートの概要

特定のメトリックの種類に対してアラートを構成する方法

アラートを構成するための重要なシグナル

クラスターインフラストラクチャアラート

アプリケーション正常性アラート

Kubernetes コントロールプレーンアラート

次のステップ

その他のリソース

次の方法で共有

Azure Kubernetes Service (AKS) の積極的監視のベスト プラクティス

監視とアラートの概要

特定のメトリックの種類に対してアラートを構成する方法

アラートを構成するための重要なシグナル

クラスター インフラストラクチャ アラート

アプリケーション正常性アラート

Kubernetes コントロール プレーン アラート

次のステップ

その他のリソース

Azure Kubernetes Service (AKS) の積極的監視のベストプラクティス

クラスターインフラストラクチャアラート

Kubernetes コントロールプレーンアラート