BCP 機能の検証について理解する
機能検証は、ERCM ライフサイクルの不可欠な部分です。 これには、事業の継続性計画 (BCP) の有効性を、理論面および実用面の両方においてテストすることが含まれます。 各サービス チームは、BCP を定期的にテストして、プランの有効性と、プランを実行するためのサービス チームの準備状況を測定します。 ERCM プログラムのガイドラインに従って、BCP と機能検証の年次レビューは、前回のレビューから 12 か月以内に行われ、BIA や DA などのサポート ドキュメントのレビューが含まれている必要があります。
検証レベル
ERCM プログラムは、さまざまな潜在的なインシデントに対する回復性と回復戦略を検証するために、人、場所、テクノロジに影響を与えるテスト シナリオの複数のカテゴリを定義します。 個々のサービス チームは、ERCM テスト シナリオ ガイドライン内で独自のテストを自由に定義できます。
テスト シナリオの例は次のとおりです。
- 主要な建物やキャンパス クラスターの損失
- 技術的な理由による中断
- 地域ネットワークの停止
- 重要なサードパーティによる中断
- 要員による中断
- 広範囲の地域イベント
- 単一のデータセンターの損失
- サイバー攻撃
- パンデミック
各テスト シナリオのコンテキスト内において、Microsoft は 0 から 7 までの 8 つのレベルの検証を定義します。0 は機能がテストされていないことを意味し、7 はテスト中に機能が完全にアクティベートされたことを意味しています。 レベル 1から 4 は、運用環境外での事業の継続性計画をテストする機能です。 レベル 5 から 7 では、運用環境内のリカバリ戦略を厳格に検証することが求められます。レベル 7 では、すべての依存関係を含むアプリケーション エコ システム全体のリカバリ計画の検証が必要になります。 各サービスに必要な検証のレベルは、サービスの重要度に基づいており、より重要なサービスほど、より厳格な検証を受けます。 一部の Microsoft Online Services の機能検証結果は、Service Trust Portal で利用できる四半期ごとのレポートを通じて、お客様が利用できるようにします。
サービスに影響するインシデントへの対応
機能の検証と継続的な BCM の改善の価値は、Microsoft がサービスに影響するインシデントに対応するために、事業の継続性計画を実行する必要がある場合に明らかになります。 ハリケーン ハーベイがテキサスを襲った際、サンアントニオにあるデータ センターが被害を受けることが予想されましたが、Exchange Onlineチームは事業の継続性計画をアクティベートし、データ センターからのトラフィックを退避させ、お客様への被害を防ぎました。 脅威が収まった後に、明確に定義されたリカバリ プロセスに従って、データ センターは問題なく通常の運用に戻ることができました。 これらのプロセスが実行されたのは、Exchange Online が以前の自然災害で学んだ教訓に基づいて継続性計画を更新およびテストしていたからであり、緊急時においてそれが効果的であることが実証されました。
内部インシデントから学んだ教訓は、事業の継続性の改善も支援します。 Microsoft の企業ネットワークにおいて、グループポリシーの展開が正しく行われていなかったために DNS が停止した場合、企業ネットワークは商用サービスから分離された障害ゾーンにあるため、お客様が影響を受けることはありません。 ただ、Microsoft での社内通信が被害を受けたため、インシデントを解決するための調整がより困難になりました。 このインシデントにより、緊急事態プロトコルが自動的に作成され、社内通信に影響を与えるインシデントの発生時において、Microsoft のチーム間のコラボレーションができるようになりました。