西ヨーロッパで発生した Windows Azure のサービス障害に対する根本原因の分析

Artikel
08/08/2012

このポストは、8 月 3 日に投稿された Root Cause Analysis for recent Windows Azure Service Interruption in Western Europe の翻訳です。

7 月 26 日に、西ヨーロッパ地区のあるクラスターにホストされている Windows Azure のコンピューティングサービスの外部接続が切断され、インターネットおよび Windows Azure のその他のサービスが中断されました。この障害の発生中、他の地域やサービスが影響を受けることはありませんでした。この問題は午前 11 時 9 分 (グリニッジ標準時) に発生し、2 時間 24 分にわたり続きました。サービスの中断とその解決に関する、より詳細な分析を以下で説明いたします。

Windows Azure のネットワークインフラストラクチャでは、 “safety valve (安全弁)” メカニズムを使用しています。これは、データセンターネットワークのハードウェアデバイスによって許可される接続数を限定することで、ネットワーク障害の連鎖的な拡大を防ぐというものです。今回の問題が発生する以前に、Windows Azure では需要増に対応するため、西ヨーロッパ地区の処理能力を拡大しておりますが、これに伴う検証プロセスにおいて、対応するデバイスの制限が適切な値に調整されていませんでした。今回、当該クラスターの使用量が急激に増加したために接続の上限値を超え、その結果、大量のネットワーク管理メッセージが発生しました。管理トラフィックの増大により、クラスターのハードウェアの一部にバグが発生し、CPU 使用率が 100% に達したことで、データトラフィックに影響が及ぶ事態となりました。

マイクロソフトはこの問題を解決するため、対象クラスター、および Windows Azure データセンター全体にわたって接続数の上限設定を引き上げると共に、自動検証を改善いたしました。さらに、特定されたバグに対する修正をデバイスソフトウェアに適用しております。また、実行中のサービスに影響を及ぼす前に接続問題を検知および軽減するために、ネットワーク監視システムを改善いたしました。この度は、お客様にご不便とご迷惑をおかけしましたことに対し、深くお詫びを申し上げます。

Mike Neil (Windows Azure ゼネラルマネージャー)

Freigeben über

西ヨーロッパで発生した Windows Azure のサービス障害に対する根本原因の分析

Zusätzliche Ressourcen