安全なデプロイの実践に関する推奨事項

[アーティクル]
10/15/2024

Azure Well-Architected フレームワークのオペレーショナルエクセレンスに関するチェックリストの次の推奨事項を対象とします。

OE:11	ワークロードの安全な展開プラクティスを明確に定義します。小規模かつ段階的で、品質が保証されるリリース方法の理想を強調して示します。最新のデプロイパターンと段階的公開手法を使用してリスクを制御します。定期的なデプロイと、緊急または修正プログラムのデプロイを考慮します。

このガイドでは、安全なデプロイプラクティス (SDP) を使用するための推奨事項について説明します。安全なデプロイプロセスと手順では、ワークロードを安全に変更してデプロイする方法を定義します。 SDP を実装するには、リスク管理の観点からデプロイについて考える必要があります。 SDP を実装すると、デプロイにおける人的エラーのリスクを最小限に抑え、問題のあるデプロイによるユーザーへの影響を制限できます。

主要な設計戦略

安全なデプロイプラクティスを実装する際に留意すべき重要なガイドラインが 4 つあります。

安全性と一貫性: 運用ワークロードに対するすべての変更には本質的にリスクが伴うため、安全性と一貫性を重視して行う必要があります。
段階的公開: 段階的公開デプロイモデルを採用することで、デプロイによって引き起こされる問題の潜在的な影響範囲を最小限に抑えることができます。
正常性モデリング: 段階的公開の各フェーズを開始する前に、デプロイは正常性チェックに合格する必要があります。
問題の検出: 問題が検出された場合は、デプロイを直ちに停止し、回復を開始する必要があります。

次のセクションでは、これらの各ポイントに関する詳細な推奨事項を示します。

デプロイの安全性と一貫性を確保する

アプリケーションコードの更新、コードとしてのインフラストラクチャ (IaC)、機能フラグ、または構成の更新プログラムをデプロイする場合でも、ワークロードにリスクが生じます。運用環境への "低リスク" のデプロイはありません。すべてのデプロイは標準のパターンに従う必要があります。また、一貫性を確保し、ヒューマンエラーのリスクを最小化するために自動化するようにします。ワークロードのサプライチェーンとデプロイパイプラインが信頼性が高く、セキュリティで保護され、明確に定義されたデプロイ標準を備えていることが重要です。すべてのデプロイを潜在的なリスクとして扱い、すべてのデプロイを同じレベルのリスク管理の対象にします。リスクは存在しますが、ワークロードに対して定期的な変更をデプロイし続ける必要があります。定期的な更新をデプロイできないと、デプロイを通じて対処する必要があるセキュリティの脆弱性など、他のリスクが発生します。詳細については、「ワークロード開発サプライチェーンの設計に関する推奨事項」を参照してください。

頻度の低い大規模なデプロイよりも、頻度の高い小規模なデプロイをお勧めします。小規模な変更の方が、問題が発生したときに容易に解決できます。頻繁にデプロイすることで、チームがデプロイプロセスに対する自信を築くこともできます。また、デプロイ中に異常が発生した場合は、ワークロードプロセスを確認して運用環境から学習することも重要です。インフラストラクチャやロールアウトの設計に弱点が見つかる場合があります。デプロイ中に問題が発生した場合は、SDP プロセスの一環として "責任の所在を問わない" 事後検証を実施し、インシデントに関する教訓を得るようにします。

段階的公開モデルを採用する

デプロイの問題が発生した場合、目標は、できるだけ早く検出し、エンドユーザーへの影響を最小限に抑えることです。この目標を達成するために、段階的ロールアウトデプロイモデル ("段階的公開モデル" とも呼ばれます) を実装します。カナリアデプロイは、段階的公開の一般的な例です。このデプロイモデルでは、内部または外部ユーザーの小規模なグループが最初に新しい機能を受け取ります。最初のグループで新しいバージョンが問題なく実行されると、ユーザー全体で新しいバージョンが実行されるまで、この機能は順次大きなグループにデプロイされていきます。機能フラグは、通常、カナリアデプロイの対象ユーザーに対して新しいバージョンを有効にするために使用されます。

もう 1 つの一般的なデプロイモデルは、ブルーグリーンアプローチです。このモデルでは、ワークロードインフラストラクチャの 2 つの同一セット (プール) がデプロイされます。どちらのプールも、完全な運用負荷を処理できます。最初の (ブルー) プールは、すべてのユーザーが配置されている現在のバージョンのデプロイを実行します。 2 つ目の (グリーン) プールは新しい機能で更新され、内部的にテストされます。内部テストの後、運用トラフィックのサブセットがブループールからグリーンプールにルーティングされます。カナリアデプロイと同様に、ロールアウトは段階的に行われます。これは、より大きなロールアウトを順次実施して、より多くのトラフィックをグリーンプールに移行するためです。ロールアウトが完了すると、更新プールがブループールになり、グリーンプールは次のデプロイの準備が整います。 2 つのプールは、誤動作から保護するために論理的に分離されます。一度に 1 つのスタンプにデプロイすることで、デプロイスタンプ設計パターンを使用するワークロードにブルーグリーンモデルのバリエーションをデプロイできます。

どちらのモデルにおいても、ロールアウトの各フェーズ間の時間は、ワークロードの正常性メトリックを監視するのに十分な長さである必要があります。異なるリージョンのユーザーや異なるタスクを実行するユーザーがワークロードを通常の容量で使用する時間を確保できるように、ロールアウトグループ間で十分な "ベイク時間" (ロールアウトグループ間の時間) を設ける必要があります。ベイク時間は、分単位ではなく、時間および日単位で測定する必要があります。また、1 日の間のさまざまなタイムゾーンや使用パターンを考慮できるように、ロールアウトグループごとにベイク時間を増やす必要もあります。

堅牢なワークロード正常性モデルを開発する

監視プラットフォームと信頼性戦略の一環として、堅牢な正常性モデルを開発します。正常性モデルでは、ワークロードのコンポーネントと全体的な正常性を詳細に可視化する必要があります。ロールアウト中に、エンドユーザーに関連する正常性の変化に関するアラートを受け取った場合は、直ちにロールアウトを停止し、アラートの原因を調査して次の行動方針を判断する必要があります。エンドユーザーから報告された問題がなく、ベイク時間を通してすべての正常性インジケーターがグリーンのままである場合は、ロールアウトを続行する必要があります。ユーザーから報告された問題や負の正常性シグナルが欠如していることで問題が隠れていないことを確認するために、正常性モデルに使用状況メトリックを含めるようにしてください。詳細については、「正常性モデルの構築」を参照してください。

障害検出メカニズムを実装する

デプロイによってロールアウトグループのいずれかで問題が発生した場合、ロールアウトは直ちに停止する必要があります。アラートを受信したらすぐに、問題の原因と影響の重大度の調査を実行する必要があります。問題からの回復には次のものが含まれます。

デプロイで行われた変更を元に戻し、最後に確認された動作中の構成に戻すことで、デプロイをロールバックします。
ロールアウト中の問題に対処することで、デプロイをロールフォワードします。修正プログラムを適用するか、問題を最小限に抑えることで、ロールアウト中の問題に対処できます。
最後に確認された動作構成を使用することで、新しいインフラストラクチャをデプロイします。

変更、特にデータベース、スキーマ、その他のステートフルコンポーネントの変更のロールバックは複雑になる場合があります。 SDP ガイドラインでは、ワークロードのデータ資産設計に従ってデータ変更を処理する方法について明確な指示を提供する必要があります。同様に、SDP が無視されず、修正プログラムまたはその他の最小化作業が安全に実行されるように、ロールフォワードは慎重に処理する必要があります。

緊急デプロイのためのプロトコルを確立する

必要に応じてロールバックおよびロールフォワードできるように、ビルド成果物全体にバージョン管理を実装します。
Gitflow や環境ベースの分岐構造ではなく、リリースフローまたはトランクベースの分岐構造を使用して、開発チーム全体で緊密に同期されたコラボレーションを実施します。
SDP を可能な限り自動化します。 IaC およびアプリケーションの継続的インテグレーションと継続的デリバリー (CI/CD) プロセスの自動化に関する詳細なガイダンスについては、「自動化を実装するための推奨事項」を参照してください。
CI プラクティスを使用して、コードの変更を定期的にリポジトリに統合します。 CI プラクティスは、統合の競合を特定し、大規模でリスクの高いマージの可能性を減らすのに役立ちます。詳細については、「継続的インテグレーションガイド」を参照してください。
機能フラグを使用して、運用環境で新機能や変更を選択的に有効または無効にします。機能フラグは、新しいコードの公開を制御し、問題が発生した場合にデプロイをすばやくロールバックするのに役立ちます。
運用環境をミラーリングするステージング環境に変更をデプロイします。プラクティス環境を使用すると、ライブ環境にデプロイする前に、制御された設定で変更をテストできます。
コードレビュー、セキュリティスキャン、コンプライアンスチェックなど、デプロイ前チェックを確立して、変更を安全にデプロイできることを確認します。
サーキットブレーカーを実装して、問題が発生しているサービスへのトラフィックを自動的に停止します。そうすることで、システムのさらなる機能低下を防ぐのに役立ちます。

緊急 SDP プロトコル

修正プログラム、またはセキュリティ侵害や脆弱性の漏洩などの緊急の問題に合わせて、SDP を調整する方法を定義する規範的なプロトコルを確立します。たとえば、緊急 SDP プロトコルには次のようなものが含まれる場合があります。

昇格および承認ステージのアクセラレーション。
スモークテストおよび統合テストのアクセラレーション。
ベイク時間の短縮。

場合によっては、緊急事態のために品質およびテストゲートが制限される場合がありますが、ゲートは不定期の演習としてできるだけ早く実行する必要があります。緊急時に SDP アクセラレーションを承認できる人物と、アクセラレーションを承認するために満たす必要がある条件を必ず定義してください。緊急 SDP プロトコルを緊急対応計画と調整して、すべての緊急事態が同じプロトコルに従って確実に処理されるようにします。

考慮事項

安全なデプロイプラクティスの構築と維持は複雑です。堅牢な標準を完全に実装できるかどうかは、ソフトウェア開発の多くの分野にわたるプラクティスの成熟度にかかっています。自動化の使用、インフラストラクチャの変更に対する IaC のみの使用、分岐戦略の一貫性、機能フラグの使用、およびその他の多くのプラクティスは、安全なデプロイを確保するのに役立ちます。このガイドを使用して、ワークロードを最適化し、プラクティスの進化に合わせて改善計画を通知します。

Azure ファシリテーション

Azure Pipelines と GitHub Actions は、承認ゲートを使用して多段階デプロイをサポートします。これは、デプロイの段階的公開ロールアウトの設計に役立ちます。
Azure App Service ステージングスロットを使用すると、コードのバージョン間の入れ替えが容易になります。ステージングスロットは、ステージング環境でのテストに役立ち、ブルーグリーンデプロイにも使用できます。
Web アプリの機能フラグを Azure App Configuration に保存して管理します。このサービスを使用すると、統合管理プレーンで機能を作成、変更、デプロイできます。
VM アプリケーションを使用して、仮想マシンにワークロードアプリケーションをデプロイします。
Azure ロードバランサーを使用してデプロイ戦略を実装し、ネイティブリソースを使用してワークロードアプリケーションの正常性を公開します。
アプリケーション正常性拡張機能を使用して、仮想マシンスケールセットインスタンス内からアプリケーションの正常性についてレポートします。この拡張機能は、ローカルアプリケーションエンドポイントに対してプローブを実行し、アプリケーションから受信した TCP/HTTP(S) 応答に基づいて正常性状態を更新します。
Azure Logic Apps を使用して、アプリケーションが更新されるたびに新しいバージョンを作成します。 Azure ではアプリケーションバージョンの履歴が保持されており、以前のバージョンに戻したり、バージョンを昇格したりできます。
多くの Azure Database サービスには、ロールバックに役立つポイントインタイムリストア機能が用意されています。ポイントインタイムリストアをサポートするサービスには次のものがあります。

例

このデプロイモデルの使用方法の例については、「Azure Kubernetes Service (AKS) クラスターのブルーグリーンデプロイ」アーキテクチャガイドを参照してください。

コミュニティリンク

オペレーショナルエクセレンスチェックリスト

レコメンデーションの完全なセットを参照してください。

オペレーショナルエクセレンスに関するチェックリスト

次の方法で共有

安全なデプロイの実践に関する推奨事項

主要な設計戦略

デプロイの安全性と一貫性を確保する

段階的公開モデルを採用する

堅牢なワークロード正常性モデルを開発する

障害検出メカニズムを実装する

緊急デプロイのためのプロトコルを確立する

緊急 SDP プロトコル

考慮事項

Azure ファシリテーション

例

コミュニティリンク

オペレーショナルエクセレンスチェックリスト

フィードバック

その他のリソース

次の方法で共有

安全なデプロイの実践に関する推奨事項

主要な設計戦略

デプロイの安全性と一貫性を確保する

段階的公開モデルを採用する

堅牢なワークロード正常性モデルを開発する

障害検出メカニズムを実装する

緊急デプロイのためのプロトコルを確立する

緊急 SDP プロトコル

考慮事項

Azure ファシリテーション

例

関連リンク

コミュニティ リンク

オペレーショナル エクセレンス チェックリスト

フィードバック

その他のリソース

コミュニティリンク

オペレーショナルエクセレンスチェックリスト