運用環境のモデルからのデータ収集
適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)
この記事では、Azure Machine Learning オンライン エンドポイントにデプロイされたモデルからのデータ収集について説明します。
Azure Machine Learning データ コレクターは、マネージド オンライン エンドポイントまたは Kubernetes オンライン エンドポイントにデプロイされたモデルからの入力データと出力データのリアルタイム ログを提供します。 Azure Machine Learning は、ログに記録された推論データを Azure BLOB ストレージに格納します。 このデータは、モデルの監視、デバッグ、または監査にシームレスに使用できるため、デプロイされたモデルのパフォーマンスを監視できます。
データ コレクターには次の機能があります。
- 中央の場所への推論データのログ記録 (Azure Blob Storage)
- マネージド オンライン エンドポイントと Kubernetes オンライン エンドポイントのサポート
- デプロイ レベルで定義し、その構成に最大限の変更を加えることが可能
- ペイロードとカスタム ログの両方のサポート
ログ モード
データ コレクターには、"ペイロード ログ" と "カスタム ログ" という 2 つのログ モードが用意されています。 ペイロード ログを使用すると、デプロイされたモデルから HTTP 要求と応答のペイロード データを収集できます。 Azure Machine Learning では、カスタム ログを使用して、スコアリング スクリプトから pandas DataFrames を直接ログ記録するための Python SDK が提供されます。 カスタム ログ Python SDK を使用すると、データ変換 (または前処理) の前、中、後のデータに加え、モデルの入力データと出力データをログに記録できます。
データ コレクターの構成
データ コレクターはデプロイ レベルで構成でき、構成はデプロイ時に指定されます。 収集されたデータを受信する Azure Blob Storage の宛先を構成できます。 収集するデータのサンプリング レート (0 – 100%) も構成できます。
制限事項
データ コレクターには次の制限事項があります。
- データ コレクターは、オンライン (またはリアルタイム) の Azure Machine Learning エンドポイント (マネージドまたは Kubernetes) のログ記録のみをサポートします。
- データ コレクター Python SDK では、pandas DataFrames を使用した表形式データのログ記録のみがサポートされています。