次の方法で共有


ディザスター リカバリー戦略を設計するためのレコメンデーション

この Power Platform Well-Architected Reliabilityチェックリストの推奨事項に適用されます:

RE:07 復旧目標に合わせて構造化、テスト、文書化された事業継続とディザスター リカバリー (BCDR) 計画を実装します。 計画は、すべてのコンポーネントとシステム全体をカバーする必要があります。

このガイドでは、ワークロードに対する信頼性の高いディザスター リカバリー戦略を設計するためのレコメンデーションについて説明します。 社内のサービス レベル目標 (SLO)、または顧客に保証したサービス レベル アグリーメント (SLA) を達成するには、堅牢で信頼性の高いディザスター リカバリー戦略が必要です。 障害やその他の重大な問題が発生することが予想されます。 こうしたインシデントに対処するための準備によって、貴社のビジネスが確実に成果をもたらすと顧客がどれだけ信頼できるかが決まります。 ディザスター リカバリー戦略は、重大なインシデントへの備えの根幹です。

定義

任期 Definition
フェールオーバー 利用できないリージョンから影響を受けていないリージョンへの本番ワークロード トラフィックの自動および/または手動による移行。
フェールバック フェールオーバー リージョンからプライマリ リージョンへの自動および/または手動による移行。

主要な設計戦略

このガイドでは、信頼性計画の一環として、次のタスクがすでに実行されていることを前提としています。

信頼性の高いワークロード アーキテクチャは、信頼性の高いディザスター リカバリー (DR) 戦略の基礎となります。 DR 戦略の計画を開始する前に、ワークロード作成のあらゆる段階で信頼性を考慮し、効率的なリカバリに必要なコンポーネントが揃っていることを確認してください。 この基盤により、復旧時間目標 (RTO) や復旧ポイント目標 (RPO) などのワークロードの信頼性目標が実用的かつ達成可能であることが保証されます。

ディザスター リカバリー計画を維持する

ワークロードに対する信頼性の高い DR 戦略の鍵となるのは、DR 計画です。 計画は、環境の変化に応じて定期的に改訂および更新される、随時更新されるドキュメントである必要があります。 計画を関連チーム (運用、技術リーダーシップ、ビジネス関係者) と定期的に (たとえば、6 か月ごとに) 共有します。 OneDrive のような可用性の高い安全なデータ ストアに保存してください。

DR 計画を作成するには、次のレコメンデーションに従ってください。

  • 何が災害を構成し、DR 計画のアクティブ化が必要かを明確に定義します。

    災害は大規模な問題です。 地域的な停電や、Microsoft Entra ID または Azure DNS のようなサービスの停止、あるいはランサムウェア攻撃や DDoS 攻撃などの深刻な悪意のある攻撃が考えられます。

    オペレーターが誤って DR エスカレーションを開始しないように、単一リソースの利用不能や障害など、災害とはみなされない障害モードの例を DR 計画に含めます。

  • FMA 説明書に基づいて DR 計画を作成します。 DR 計画には、災害として定義される停止の障害モードと軽減戦略が含まれていることを確認してください。 更新が必要な場合は、DR 計画と FMA ドキュメントの両方を同時に更新して、環境が変化したときやテストで予期しない動作が判明したときに正確な情報が得られるようにします。

  • ワークロード チーム内の役割と責任を明確に定義し、組織内の関連する外部の役割を理解します。 災害が Microsoft Entra ID などの外部サービスの停止によって発生した場合は、外部の関係者との通信を担当し、ワークロード チームと更新情報を共有できるロールが定義されていることを確認します。 役割には以下が含まれます。

    • 災害を宣言する責任者
    • インシデントの終了を宣言する責任者
    • 運営の役割
    • テストと検証の役割
    • 社内および社外のコミュニケーションの役割
    • 遡及的および根本原因分析 (RCA) の主導的役割
  • 回復ステータスが関係者に確実に伝達されるように、ワークロード チームが従う必要があるエスカレーション パスを定義します。

  • 影響を最小限に抑えるためにワークロードのコンポーネントを回復する既定の順序を含めます。 たとえば、アプリケーションを復旧する前に、データベースを復旧し、クラウド フローを再起動します。

    • 各コンポーネントの回復手順をステップバイステップのガイドとして詳しく説明します。 可能であればスクリーンショットと、手順を実行するための前提条件を含めます。 たとえば、収集する必要があるスクリプトや資格情報をリストします。

    • チームの責任とクラウド ホスティング プロバイダーの責任を定義します。 たとえば、 Microsoft はPaaS (サービスとしてのプラットフォーム) の復元を担当しますが、データの復元とサービスへの構成の適用はユーザーの責任となります。

    • 回復を開始する前に、インシデントの根本原因を把握し、軽減策を実行します。 たとえば、インシデントの原因がセキュリティ上の問題である場合は、フェールオーバー環境で影響を受けるシステムを回復する前に、その問題を軽減します。

  • フェールオーバー環境でアプリを再展開する必要がある場合は、ツールを使用して展開プロセスを可能な限り自動化します。 すぐに展開を開始できるように、Azure Pipelines がフェールオーバー環境に事前に展開され、正しく構成されていることを確認します。 自動化されたエンドツーエンド展開を使用し、必要に応じて手動承認ゲートを使用して、一貫性のある効率的な展開プロセスを確保します。 導入プロセスの段階で手動介入が必要な場合は、手動手順を文書化します。 明確に定義されている役割と責任。

  • できる限り多くの手順を自動化します。 再試行ロジックを使用して、壊れたタスクで停止したスクリプトで時間を無駄にしないようにします。 これらのスクリプトは緊急時にのみ実行するため、誤って開発されたスクリプトによってさらなる損害が発生したり、回復プロセスが遅くなったりすることは望ましくありません。

注意

自動化にはリスクが伴います。 訓練を受けたオペレーターは、自動化されたプロセスを注意深く監視し、プロセスで問題が発生した場合は介入する必要があります。 自動化が誤検知に反応するリスクを最小限に抑えるには、DR ドリルを徹底的に実行してください。 計画のすべてのフェーズをテストします。 検出をシミュレートしてアラートを生成し、回復手順全体を実行します。

ディザスター リカバリー訓練の実施

適切な DR 計画には、DR テストの実践が不可欠です。 多くの業界では、定期的な DR 訓練を要求するコンプライアンス フレームワークが存在します。 業界に関係なく、頻繁な DR 訓練は成功に不可欠です。

DR 訓練を成功させるには、次のレコメンデーションに従ってください。

  • 運用環境の DR 訓練は年に少なくとも 1 回実行します。 予行演習や非運用訓練は、関係者が自分の役割と責任を熟知していることを確認するのに役立ちます。 これらの訓練は、オペレーターが回復プロセスに従うことで、慣れるのにも役立ちます。 ただし、DR 計画と RTO および RPO の指標の妥当性を実際にテストできるのは、運用訓練だけです。 運用訓練を使用して、コンポーネントとフローの回復プロセスの時間を計測し、ワークロードに対して定義された RTO および RPO ターゲットが達成可能であることを確認します。 Microsoft Entra ID の障害など、制御できない機能については、それらの機能に関係するフローの RTO および RPO 目標が、制御を超えて発生する可能性のある遅延を考慮していることを確認してください。

  • 予行演習を使用して、新しいオペレーターに DR のプロセスと手順について教育します。 上級オペレーターは、新しいオペレーターが役割を果たせるように時間をかけ、改善の機会を探す必要があります。 新しいオペレーターが手順のステップに躊躇したり混乱したりしている場合は、その手順を見直して、明確に記述されていることを確認します。

考慮事項

運用環境で DR 訓練を実行すると、予期しない致命的な障害が発生する可能性があります。 最初の導入時には、必ず非運用環境で回復手順をテストしてください。

訓練中にチームにできるだけ多くのメンテナンス時間を与えてください。 メンテナンス時間を計画するときは、テスト中に取得した回復メトリックを必要な最小時間の割り当てとして使用します。

DR 訓練の実践が成熟するにつれて、どの手順を並行して実行できるか、どの手順を順番に実行する必要があるかがわかります。 訓練の早い段階では、すべての手順を順番に実行する必要があり、予期しない問題に対処するために各ステップで追加の時間が必要であることを想定してください。

フェールオーバー機能

Microsoft ビジネス アプリケーションは、Dynamics 365およびソフトウェア アズ ア サービス (SAAS) アプリケーションのすべての 運用 環境にビジネス継続性と災害復旧 (BCDR) 機能を提供します。 Power Platform Microsoft が地域停電時の生産データの回復力をどのように確保しているかについて学習します。

信頼性チェックリスト

完全なレコメンデーションのセットを参照してください。