リソース正常性を使って、自分のリソースに何が起きたのかを確認する
こんにちは、Azure プラットフォーム サポートの石井です。
Azure プラットフォームでは、「リソース正常性」という機能があり、お客様の IaaS VM などのリソースが「今正常に稼働しているかどうか」、「過去に Azure 基盤側の要因にてダウンしたことがあるか」の両方が参照できます。
特に、IaaS 利用者からすると、自社の VM が一時的にダウンしていた場合、自社の管理下の OS やアプリケーションの問題なのか、Azure データセンターの問題なのか、真っ先に切り分けがしたいことかと存じます。この場合に、役に立つ機能となります。
Azure Resource Health の概要
/ja-jp/azure/resource-health/resource-health-overview
リソース正常性の使い方
1. Azure ポータルの右上の、「?」 マークをクリックし、[ヘルプとサポート] を選択します。
2. [ヘルプとサポート] ブレードのメニューから、[リソース正常性] をクリックします。
3. VM、PaaS (App Service や SQL データベース等) の、リソース正常性に対応したリソースが一覧されます。ここで、緑のチェック マークになっているものは、正常に動作しているものです。
※ 上記方法で、リソースすべてが一覧表示できます。仮想マシンなど、各リソースのブレードからも、当該リソースに関しての [リソース正常性] にアクセスすることができます。
過去、予期せずダウンしたことが疑われるリソースについては、クリックし、[履歴の表示] をクリックしてください。
以下のように、過去 Azure 基盤側の要因で利用できない時間があったケースについては、時間と説明が記載されます。
最後に、リソース正常性についての FAQ をおまとめしました。
- リソースの状態が「不明」と出る時間帯がある
[リソース正常性] に何らかのトラブルがあり、情報が残っていない部分となります。「不明」というステータスは、必ずしも、VM がダウンしている旨を示すものではありません。VM のイベント ログや Syslog を確認し、ダウンしていないか、ご確認下さい。
- リソース正常性はどの程度新しい情報となるのか
最大で 15 分程度の遅れが生じます。
- リソース正常性では正常と出ていたが、「VM への疎通が行えなかった」「VM が再起動していた」 などのトラブルがあった
Azure 基盤では、VM の電源が入っている状態をもとに、VM が稼働状態であるとみなします。しかしながら、内部の OS やアプリケーション レベルの不具合があって、ユーザーがサービス利用できなかった場合には、Azure のリソース正常性を使ってこのような問題を検知することは出来ません。Azure 基盤側の VM の稼働状態はお客様のサービスとしての稼働の正常性とはイコールになりません。監視については、お客様のサービス構成にあったプロトコルにて、外部から疎通監視をしていただくことをお奨めします。
参考情報: 新規リリースされた “Azure Monitor” 機能を使って、利用中のリソースに影響しうる大規模障害が発生した場合にメール通知を受け取る
https://blogs.technet.microsoft.com/jpaztech/2017/04/10/notifyshdupdate/
-> 本文後半の、"「お客様のサービスへの監視の考え方」" の項をご参照下さい。
- 自動的に通知させるには
時期は未定ですが、多くのご要望をいただいており、Azure Monitor という機能のメール通知と連動するようにできる見込みです。
PowerShell などで、当該情報を入手することも現時点では不可能です。