西ヨーロッパで発生した Windows Azure のサービス障害に対する根本原因の分析
このポストは、8 月 3 日に投稿された Root Cause Analysis for recent Windows Azure Service Interruption in Western Europe の翻訳です。
7 月 26 日に、西ヨーロッパ地区のあるクラスターにホストされている Windows Azure のコンピューティング サービスの外部接続が切断され、インターネットおよび Windows Azure のその他のサービスが中断されました。この障害の発生中、他の地域やサービスが影響を受けることはありませんでした。この問題は午前 11 時 9 分 (グリニッジ標準時) に発生し、2 時間 24 分にわたり続きました。サービスの中断とその解決に関する、より詳細な分析を以下で説明いたします。
Windows Azure のネットワーク インフラストラクチャでは、 “safety valve (安全弁)” メカニズムを使用しています。これは、データセンター ネットワークのハードウェア デバイスによって許可される接続数を限定することで、ネットワーク障害の連鎖的な拡大を防ぐというものです。今回の問題が発生する以前に、Windows Azure では需要増に対応するため、西ヨーロッパ地区の処理能力を拡大しておりますが、これに伴う検証プロセスにおいて、対応するデバイスの制限が適切な値に調整されていませんでした。今回、当該クラスターの使用量が急激に増加したために接続の上限値を超え、その結果、大量のネットワーク管理メッセージが発生しました。管理トラフィックの増大により、クラスターのハードウェアの一部にバグが発生し、CPU 使用率が 100% に達したことで、データ トラフィックに影響が及ぶ事態となりました。
マイクロソフトはこの問題を解決するため、対象クラスター、および Windows Azure データセンター全体にわたって接続数の上限設定を引き上げると共に、自動検証を改善いたしました。さらに、特定されたバグに対する修正をデバイス ソフトウェアに適用しております。また、実行中のサービスに影響を及ぼす前に接続問題を検知および軽減するために、ネットワーク監視システムを改善いたしました。この度は、お客様にご不便とご迷惑をおかけしましたことに対し、深くお詫びを申し上げます。
Mike Neil (Windows Azure ゼネラル マネージャー)