Azure インフラストラクチャ (IaaS) での AI ワークロードのガバナンスに関する推奨事項
この記事では、Azure インフラストラクチャ (IaaS) で AI ワークロードを実行している組織のガバナンスに関する推奨事項を紹介します。 これらの推奨事項は、組織がリソース管理、コスト管理、セキュリティ、操作効率のための構造化されたフレームワークを確立するのに役立ちます。 これらのプラクティスに従うことで、責任を持って AI ワークロードをスケーリングし、コンプライアンス、セキュリティ、財務の目標を確実に満たすことができます。
リソース管理
リソース ガバナンスは、Azure リソースを管理するための規則と標準を確立します。 ガバナンス ポリシーを適用することで、組織はコンプライアンスの確保、リソース使用の標準化、コストの制御を実現し、AI 操作における責任あるスケーリングをサポートすることができます。
タグの使用を強制します。 Azure Policy を使用して、リソースの場所、許可された SKU、必須タグなどの規則を適用します。 たとえば、特定の高コスト VM のデプロイを制限するポリシーを作成し、予算を効果的に管理できるようにします。
ガバナンス ポリシーを適用して、コンプライアンスと標準化を確保します。 Azure Policy を使用して、リソースの場所、許可された SKU、必須タグのような規則を適用します。 たとえば、特定の高コスト VM のデプロイを制限して予算を制御するポリシーを作成します。
ライフサイクル管理にはリソース グループを使用します。 共通のライフサイクルを共有するリソース グループ内に AI リソースをデプロイします。 リソース グループを使用すると、リソースをまとめてデプロイ、構成、削除できます。 また、追加のガバナンス (ポリシー)、セキュリティ (RBAC)、コスト (予算) の境界も提供します。
名前付け規則を標準化します。 AI リソースのための標準化された名前付け規則を導入します。 このプラクティスにより、追跡と管理が改善します。 多くのリソースに名前の長さの制限があるため、各 Azure リソースの名前付け規則と制限を使用して、推奨される省略形に従ってください。
インフラストラクチャをコードとして管理します。 Microsoft Defender for Cloud を使用して、IaC セキュリティを監視および適用します。 このツールは、IaC の構成ミスを検出し、セキュリティで保護されたデプロイを保証するのに役立ちます。
コスト管理
コスト管理は、Azure 上の AI ワークロードに関連する経費を監視および制御します。 効果的なコスト管理により、組織は予算を設定し、支出を追跡し、AI プロジェクトの財務の持続可能性を維持することができます。
タグを使用してコストを配分します。 リソースにタグ付けを強制的に適用するように Azure Policy 定義を構成します。 タグを使用して、プロジェクト、コスト センター、環境、所有者別にリソースを分類し、管理と課金を改善します。
タグ継承を使用します。 コスト管理でタグ継承を使用して、請求、リソース グループ、サブスクリプション タグを子リソース使用記録に適用します。
課金アカウントを管理します。 Microsoft Billing を使用して、課金アカウントを監視し、請求書を処理します。 正確な経費追跡を容易にするために、各 AI プロジェクトまたはチームに課金アカウントを割り当てます。
コストを監視します。 Microsoft Cost Management を使用して、予算アラート、コストの異常アラート、スケジュールされたアラートを設定します。 この方法でコストを監視することで、組織の財務規範が維持しやすくなります。
支出パターンを表示します。 Azure コスト分析ツールを使用して、定期的に支出パターンを見直します。 このプロセスでは、傾向を特定し、特に VM の使用における節約できる可能性がある領域を明らかにします。
特定の仮想マシン SKU を許可します。 Azure Policy を使用して、AI 予算に合った仮想マシン SKU のみを許可します。 組み込みのポリシー定義により、仮想マシン SKU は、この制御を強制することができます。
自動スケーリングを検討してください。 仮想マシン スケール セットを使用して、需要に基づいて VM 数を動的に調整し、コストを最適化します。
VM の自動シャットダウンを構成します。 自動シャットダウン機能を使用して、時間外にシャットダウンするように VM をスケジュールし、不要なコストを削減します。
セキュリティ ガバナンス
セキュリティ ガバナンスは、AI ワークロード全体にわたる堅牢な保護対策の必要性に対処します。 セキュリティ ポリシーとアクセス制御を実装することで、機密データとリソースを保護できます。 これにより、リスクが軽減され、Azure 上のセキュリティで保護された AI 環境がサポートされます。
Microsoft Entra ID と統合します。 一元化された ID 管理と、AI ワークロード全体のシングル サインオン (SSO) 機能には、Microsoft Entra ID を使用します。
環境ごとに個別のアクセス制御を実装します。 各デプロイ パイプラインの ID を指定された環境に制限し、偶発的なデプロイのリスクを軽減します。
Azure Defender を有効にします。 Azure Defender をアクティブ化して、高度な脅威保護を実現します。 Azure Defender は、仮想マシン、ストレージ アカウント、データベースを含むワークロードのセキュリティを強化し、AI ワークロードの堅牢なセキュリティ体制を促進します。
操作のガバナンス
操作ガバナンスにより、AI ワークロードの一貫した監視と管理が保証されます。 監視、アラート、自動デプロイ用のツールを使用することで、組織はシステムの正常性を維持し、問題を早期に検出し、操作効率を向上させ、信頼性の高い安定した AI 操作に貢献することができます。
監視エージェントをデプロイします。 仮想マシン、Azure Virtual Machine Scale Sets、および Azure Arc 接続サーバーに、Azure Monitor エージェントがデフォルトでデプロイされていることを確認します。 それらを管理サブスクリプション内の中央 Log Analytics ワークスペースに接続します。
警告の設定。 推奨されるアラート ルールを有効にして、メトリック偏差の通知を受信します。
CI/CD パイプラインを使用します。 継続的インテグレーションと継続的デリバリー (CI/CD) を実装して、コードのテストとさまざまな環境へのデプロイを自動化します。