Azure 上の AI ワークロードの管理に関する推奨事項

[アーティクル]
01/23/2025

この記事では、Azure で AI ワークロードを実行している組織に向けた、管理に関する推奨事項を紹介します。 Azure AI Foundry、Azure OpenAI、Azure Machine Learning、Azure AI Services などの Azure AI サービスとしてのプラットフォーム (PaaS) ソリューションに焦点を当てています。生成型と非生成型両方の AI ワークロードが対象です。

Azure での AI ワークロードの効果的な管理には、デプロイ、モデルのパフォーマンス、操作、データ、およびディザスターリカバリーを監視して、AI ワークロードをサポートすることが含まれます。適切な管理により、AI ワークロードはライフサイクル全体を通じて、信頼性が高く、セキュリティで保護されていることが保証されます。

AI のデプロイを管理する

AI デプロイを管理することで、チーム全体にわたるセキュリティとコンプライアンスを向上させる一貫した構成が可能になり、ワークロードチームは概念実証の段階から運用環境に移行しやすくなります。 Azure には、ガバナンスとセキュリティを適用するために Azure AI Foundry ハブやプロジェクトなどのツールが用意されています。 Azure Machine Learning には、ハブワークスペースと同様の機能があります。詳細については、「AI デプロイの管理」を参照してください。

AI モデルを管理する

AI モデルの管理には、出力の監視、パフォーマンス、責任ある AI 原則との連携が含まれます。 AI モデルは、データの変化、ユーザーの行動、その他の外部要因により、時間の経過とともにドリフトが生じる可能性があります。このような変化に対処しないと、不正確な結果や倫理的な懸念につながる可能性があります。

モデルの出力を監視します。 監視とテストのプロセスを実装して、これらのワークロードが責任ある AI ターゲットと一致していることを確認します。
- 生成 AI を監視します。 生成 AI ワークロードの場合は、Azure AI Foundry の組み込みの評価と手動の監視機能を使用します。プロンプトフローを使用している場合は、プロンプトフローのデプロイを監視します。また、責任ある AI ツールを使用してモデルモニタリングを補完することも検討してください。
- 非生成 AI を監視します。 非生成 AI ワークロードの場合は、データ処理ステージとモデルパフォーマンスメトリックを監視して、予測が正確かつ信頼性が高いままであることを確認します。 Azure Machine Learning のモデルモニタリングを有効にします。 Azure AI サービスの場合は、使用する各 AI サービスの監視を有効にします。
モデルのパフォーマンスを監視します。 パフォーマンスまたは精度の低下が検出された場合、監視により問題の原因を特定しやすくなります。すべてのワークロードと同様に、Azure Monitor と Application Insights を使用して AI ワークロードのパフォーマンスを監視します。
- 生成 AI のパフォーマンスを監視します。 生成 AI では、応答の待機時間またはベクトル検索結果の精度を監視して、ユーザーエクスペリエンスを強化します。 Azure AI Foundry では、トレースを有効にして、要求、集計メトリック、ユーザーフィードバックごとにトレースデータを収集できます。
- 非生成 AI のパフォーマンスを監視します。 Azure Machine Learning にデプロイされたモデルのパフォーマンスメトリックを取得します。 Azure AI サービスの場合は、各 Azure AI サービスの診断ログを有効にします。
監視用の生成 AI ゲートウェイを検討してください。 Azure API Management のようなリバースプロキシを使用すると、プラットフォームにネイティブではないログ記録と監視を実装できます。 API Management を使用すると、ソース IP、入力テキスト、出力テキストを収集できます。詳細については、「Azure OpenAI Service 言語モデルのログ記録と監視の実装」を参照してください。

AI 操作を管理する

AI 操作の管理には、Azure AI ワークロードのためのコンピューティングリソースの標準化とプラットフォームリソースの監視が含まれます。これにより、チームは適切なコンピューティングリソースを効率的に使用し、プラットフォームリソースからメトリックとログをキャプチャすることができます。

プラットフォームリソースを監視します。 診断設定を使用して、Azure AI Foundry、Azure Machine Learning、Azure AI サービスなど、すべての主要サービスのログとメトリックをキャプチャします。特定のサービスでは、監査ログと関連するサービス固有のログを取得する必要があります。アーキテクチャの特定のニーズに基づいて、カスタム監視アラートを実装します。たとえば、コンテナーレジストリ、Azure Machine Learning、Azure OpenAI のアラートが挙げられます。 AI アーキテクチャ内の各サービスに対して推奨される監視アラートを構成します。詳細については、「Azure Monitor ベースラインアラートの」を参照してください。
コンピューティング管理を標準化します。 プロンプトフローやトレーニングモデルのような特定のアクションには、コンピューティングリソースが必要です。 Machine Learning などのサービスには、コンピューティングインスタンス、クラスター、サーバーレスオプションなど、さまざまなコンピューティングオプションがあります。コンピューティングの種類、ランタイム、シャットダウン期間を標準化します。サービス固有のコンピューティングオプションについては、Azure AI Foundry と Machine Learningを参照してください。

AI データを管理する

高品質のデータは、正確な AI モデルの基盤です。モデルのドリフトを追跡することで、AI 予測の妥当性を長期にわたって維持することが可能になります。組織はそれを利用して、必要に応じてモデルを適応させ、現在の状態を反映させることができます。

データドリフトを監視します。 モデルの妥当性を維持するために、生成 AI および非生成 AI において精度とデータドリフトを継続的に追跡します。監視では、モデルの予測や大規模な言語モデルの応答が予想される動作から逸脱した場合に、アラートを生成することができます。この逸脱は、再トレーニングまたは調整が必要であることを示します。パフォーマンスのしきい値を検出するようにカスタムアラートを設定します。このアプローチを取ると、問題が発生したときに早期に介入できます。 Azure AI Foundry で評価を使用し、Machine Learningでサポートされているメトリックをのために活用します。
品質の高いデータ処理を確保します。 機械学習のトレーニングデータは、書式設定し、クリーンにし、モデルを使用できる状態にする必要があります。生成 AI の場合、グラウンディングデータ (根拠とするデータ) は正しい形式である必要があります。また、AI モデルを使用するためにチャンク、エンリッチ、埋め込みされる可能性が高くなります。詳細については、「RAGソリューションの設計と開発のガイド」を参照してください。

ビジネス継続性を管理する

複数リージョンデプロイを実装して、生成型 AI システムと非変性 AI システムの両方の高可用性と回復性を確保します。詳細については、Azure AI Foundry、azure Machine Learning、および Azure OpenAIのでのマルチリージョンデプロイに関するページを参照してください。

次のステップ

セキュリティ PaaS AI

次の方法で共有