Azure 上の AI ワークロードの管理に関する推奨事項
この記事では、Azure で AI ワークロードを実行している組織に向けた、管理に関する推奨事項を紹介します。 Azure AI Studio、Azure OpenAI、Azure Machine Learning、Azure AI サービスなどの「Azure AI サービスとしてのプラットフォーム (PaaS)」ソリューションに焦点を当てています。 生成型と非生成型両方の AI ワークロードが対象です。
Azure での AI ワークロードの効果的な管理には、デプロイ、モデルのパフォーマンス、操作、データ、およびディザスター リカバリーを監視して、AI ワークロードをサポートすることが含まれます。 適切な管理により、AI ワークロードはライフサイクル全体を通じて、信頼性が高く、セキュリティで保護されていることが保証されます。
AI のデプロイを管理する
AI デプロイを管理することで、チーム全体にわたるセキュリティとコンプライアンスを向上させる一貫した構成が可能になり、ワークロード チームは概念実証の段階から運用環境に移行しやすくなります。 Azure には、ガバナンスとセキュリティを適用するための Azure AI Studio ハブやプロジェクト などのツールが用意されています。 Azure Machine Learning には、ハブ ワークスペースと同様の機能があります。 詳細については、「AI デプロイの管理」を参照してください。
AI モデルを管理する
AI モデルの管理には、出力の監視、パフォーマンス、責任ある AI 原則との連携が含まれます。 AI モデルは、データの変化、ユーザーの行動、その他の外部要因により、時間の経過とともにドリフトが生じる可能性があります。 このような変化に対処しないと、不正確な結果や倫理的な懸念につながる可能性があります。
モデルの出力を監視します。 監視とテストのプロセスを実装して、これらのワークロードが責任ある AI ターゲットと一致していることを確認します。
生成 AI を監視します。 生成 AI ワークロードには、Azure AI Studio に組み込まれている 評価機能と手動監視機能を使用します。 プロンプト フローを使用している場合は、プロンプト フローのデプロイを監視します。 また、責任ある AI ツールを使用してモデルモニタリングを補完することも検討してください。
非生成 AI を監視します。 非生成 AI ワークロードの場合は、データ処理ステージとモデル パフォーマンス メトリックを監視して、予測が正確かつ信頼性が高いままであることを確認します。 Azure Machine Learning のモデルモニタリングを有効にします。 Azure AI サービスの場合は、使用する各 AI サービスの監視を有効にします。
モデルのパフォーマンスを監視します。 パフォーマンスまたは精度の低下が検出された場合、監視により問題の原因を特定しやすくなります。 すべてのワークロードと同様に、Azure Monitor と Application Insights を使用して AI ワークロードのパフォーマンスを監視します。
生成 AI のパフォーマンスを監視します。 生成 AI では、応答の待機時間またはベクトル検索結果の精度を監視して、ユーザー エクスペリエンスを強化します。 Azure AI Studio で、トレースを有効にして、各要求のトレース データ、集計されたメトリック、ユーザー フィードバックを収集します。
非生成 AI のパフォーマンスを監視します。 Azure Machine Learning にデプロイされたモデルのパフォーマンス メトリックを取得します。 Azure AI サービスの場合は、各 Azure AI サービスの診断ログを有効にします。
監視用の生成 AI ゲートウェイを検討してください。 Azure API Management のようなリバース プロキシを使用すると、プラットフォームにネイティブではないログ記録と監視を実装できます。 API Management を使用すると、ソース IP、入力テキスト、出力テキストを収集できます。 詳細については、「Azure OpenAI Service 言語モデルのログ記録と監視の実装」を参照してください。
AI 操作を管理する
AI 操作の管理には、Azure AI ワークロードのためのコンピューティング リソースの標準化とプラットフォーム リソースの監視が含まれます。 これにより、チームは適切なコンピューティング リソースを効率的に使用し、プラットフォーム リソースからメトリックとログをキャプチャすることができます。
プラットフォーム リソースを監視します。 診断設定を使用して、Azure AI Studio、Azure Machine Learning、Azure AI サービスなど、すべての主要サービスのログとメトリックを取得します。 特定のサービスでは、監査ログと関連するサービス固有のログを取得する必要があります。 アーキテクチャの特定のニーズに基づいて、カスタム監視アラートを実装します。 たとえば、コンテナー レジストリ、Machine Learning service、Azure OpenAI Service 操作のアラートなどです。
コンピューティング管理を標準化します。 プロンプト フローやトレーニング モデルのような特定のアクションには、コンピューティング リソースが必要です。 Machine Learning などのサービスには、コンピューティング インスタンス、クラスター、サーバーレス オプションなど、さまざまなコンピューティング オプションがあります。 コンピューティングの種類、ランタイム、シャットダウン期間を標準化します。 サービス固有のコンピューティング オプションについては、Azure AI Studio と Machine Learning に関するページを参照してください。
AI データを管理する
高品質のデータは、正確な AI モデルの基盤です。 モデルのドリフトを追跡することで、AI 予測の妥当性を長期にわたって維持することが可能になります。組織はそれを利用して、必要に応じてモデルを適応させ、現在の状態を反映させることができます。
データ ドリフトを監視します。 モデルの妥当性を維持するために、生成 AI および非生成 AI において精度とデータ ドリフトを継続的に追跡します。 監視では、モデルの予測や大規模な言語モデルの応答が予想される動作から逸脱した場合に、アラートを生成することができます。 この逸脱は、再トレーニングまたは調整が必要であることを示します。 パフォーマンスのしきい値を検出するようにカスタム アラートを設定します。 このアプローチを取ると、問題が発生したときに早期に介入できます。 Azure AI Studio での評価と、Machine Learning でサポートされているメトリックを使用します。
品質の高いデータ処理を確保します。 機械学習のトレーニング データは、書式設定し、クリーンにし、モデルを使用できる状態にする必要があります。 生成 AI の場合、グラウンディング データ (根拠とするデータ) は正しい形式である必要があります。また、AI モデルを使用するためにチャンク、エンリッチ、埋め込みされる可能性が高くなります。 詳細については、「RAGソリューション の設計と開発のガイド」を参照してください。
ビジネス継続性を管理する
マルチリージョンのデプロイを実装して、生成 AI システムと非生成 AI システム両方の高可用性と回復性を確保します。詳細については、Azure AI Studio、Azure Machine Learning、Azure OpenAI でのマルチリージョン デプロイに関するページを参照してください。