多モデルアプローチを使用して機械学習モデルをスケーリングする

Azure Data Factory

Azure Data Lake

Azure Databricks

Azure Machine Learning

Azure Synapse Analytics

この記事では、Azure Machine Learning とコンピューティングクラスターを使用する多くのモデルのアーキテクチャについて説明します。複雑なセットアップが必要な状況に対して汎用性を提供します。

Architecture

このアーキテクチャの Visio ファイルをダウンロードします。

データフロー

次のデータフローは、前の図に対応しています。

データインジェスト:
1. Azure Data Factory は、ソースデータベースからデータを取得し、Azure Data Lake Storage にコピーします。
2. その後、データは、表形式のデータセットとして Machine Learning データストアに格納されます。
モデルトレーニングパイプライン:
1. データの準備:
  1. トレーニングパイプラインは、データストアからデータを取得し、必要に応じて変換します。
  2. データは、モデルをトレーニングするためのデータセットにグループ化されます。
2. モデルのトレーニング:
  1. パイプラインは、データ準備中に作成されたすべてのデータセットのモデルをトレーニングします。
  2. ParallelRunStep クラスを使用して、複数のモデルを並列でトレーニングします。
  3. モデルがトレーニングされると、パイプラインによってモデルとそのテストメトリックが Machine Learning に登録されます。
モデル昇格パイプライン:
1. モデルの評価:
  1. 昇格パイプラインは、トレーニング済みのモデルを運用環境に移行する前に評価します。
  2. DevOps パイプラインがビジネスロジックを適用して、モデルがデプロイの条件を満たしているかどうかを判断します。たとえば、テストデータの精度が 80%を超えているかどうかを確認できます。
2. モデルの登録:
  1. 昇格パイプラインは、対象となるモデルを運用環境の Machine Learning ワークスペースに登録します。
モデルのバッチスコアリングパイプライン:
1. データの準備:
  1. バッチスコアリングパイプラインは、データストアからデータを取得し、必要に応じて各ファイルを変換します。
  2. データは、スコア付けのためにデータセットにグループ化されます。
2. モデルのスコア付け:
  1. パイプラインでは、ParallelRunStep クラスを使用して複数のデータセットを並列にスコア付けします。
  2. モデルタグを検索して、Machine Learning の各データセットに適したモデルを識別します。
  3. モデルがダウンロードされ、データセットのスコア付けに使用されます。
  4. DataTransferStep クラスは、結果を Azure Data Lake に書き戻します。
  5. 予測は、提供のために Azure Data Lake から Synapse SQL に渡されます。
  6. マネージドオンラインエンドポイントは、リアルタイムスコアリングを提供します。
  7. モデルの数が多いため、事前に読み込まれるのではなく、必要に応じて読み込まれます。
結果:
- 予測： バッチスコアリングパイプラインでは、予測を Synapse SQL に保存します。
- メトリック: Microsoft Power BI モデル予測に接続して、プレゼンテーションの結果を取得して集計します。

コンポーネント

Azure Data Factory は、データ移動と変換を調整および自動化するためのデータドリブンワークフローを作成できるクラウドベースのデータ統合サービスです。このアーキテクチャでは、Azure Data Factory はエンタープライズデータとサードパーティのメタデータを Data Lake Storage に取り込みます。
Azure DevOps は、アプリケーションとインフラストラクチャの包括的なライフサイクル管理を提供する一連の開発者サービスです。継続的インテグレーションと継続的デリバリー (CI/CD) パイプライン、作業追跡、ソース管理、ビルドパイプライン、パッケージ管理、テストソリューションのためのツールが含まれています。このアーキテクチャでは、Azure DevOps を使用して、モデルの昇格、テスト、運用環境へのデプロイを自動化するための CI/CD パイプラインを管理します。
azure SQL Database は、フルマネージドのリレーショナルクラウドデータベースです。このアーキテクチャでは、SQL Database を使用して、データパイプラインの一部としてクエリまたは分析される可能性がある構造化データを格納します。
Azure Stream Analytics は、大量の高速ストリーミングデータを分析して処理するように設計された、リアルタイム分析および複雑なイベント処理サービスです。このアーキテクチャでは、Stream Analytics を使用してリアルタイムのデータ処理を行うことができます。
Azure Synapse Analytics は、データ統合、エンタープライズデータウェアハウジング、ビッグデータ分析を統合した分析サービスです。このアーキテクチャでは、バッチスコアリングの結果を格納するために使用されます。このアプローチにより、レポートまたは分析のための予測の効率的なクエリと取得が可能になります。 Synapse SQL は、ダウンストリームアプリケーションに予測を提供し、Power BI などの視覚化ツールが集計結果にアクセスできるようにするために使用されます。
Data Lake Storage は、高パフォーマンスの分析ワークロード用の非常にスケーラブルで安全なストレージサービスです。このアーキテクチャでは、Data Lake Storage は、未加工のデータセットと変換されたデータセットのプライマリストレージレイヤーとして機能し、スコアリングパイプラインからの結果を格納するために機能します。
Machine Learning は、モデルをすばやく構築およびデプロイするためのエンタープライズレベルの機械学習サービスです。低コードデザイナー、自動化された機械学習、さまざまな統合開発環境をサポートするホスト型 Jupyter Notebook 環境などのツールを、すべてのスキルレベルのユーザーに提供します。このアーキテクチャでは、Machine Learning を使用して、トレーニング、評価、デプロイなどのモデルのライフサイクルを管理します。また、トレーニング、昇格、スコア付けなどのタスクのパイプラインを調整します。
- マネージドオンラインエンドポイントは、リアルタイムスコアリングに使用される Machine Learning の機能です。このアーキテクチャでは、マネージドオンラインエンドポイントは、機械学習モデルをオンデマンドで読み込むことで、ほぼリアルタイムで予測を提供するスケーラブルで安全な方法を提供するのに役立ちます。
- ParallelRunStep クラスは、並列ジョブを効率的に実行するために使用される Machine Learning パイプラインのコンポーネントです。これにより、多数のモデルを同時にトレーニングまたはスコア付けするなど、バッチタスクのスケーラブルな処理が可能になります。このアーキテクチャでは、モデルトレーニングパイプラインとバッチスコアリングパイプラインの両方で ParallelRunStep クラスを使用して、複数のデータセットまたはモデルを並列でトレーニングまたはスコア付けし、これらの操作の実行時間を大幅に削減します。
Power BI は、関連のないデータソースを一貫性のある視覚的にイマーシブな対話型の分析情報に変換するために連携するソフトウェアサービス、アプリ、コネクタのコレクションです。このアーキテクチャでは、Power BI は Synapse SQL に接続して、対話型ダッシュボードを使用して予測と集計メトリックを取得して提示します。

代替

ソースデータには任意のデータベースを使用できます。
マネージドオンラインエンドポイントではなく、リアルタイム推論に Azure Kubernetes Service (AKS) を使用できます。 AKS を使用すると、コンテナー化されたモデルをデプロイし、デプロイをより詳細に制御できます。これらの機能を使用すると、リソースを使い果たすことなく、受信要求を処理するモデルの動的読み込みが可能になります。

シナリオの詳細

機械学習の問題の多くは、単一の機械学習モデルで解決するには複雑すぎます。すべての店舗のすべてのアイテムの売上を予測する場合でも、何百もの油井のメンテナンスをモデル化する場合でも、インスタンスごとにモデルを使用すると、多くの機械学習の問題に対する結果が向上する可能性があります。この "多数モデル" のパターンは、さまざまな業界で共通しており、現実に多くのユースケースがあります。 Machine Learning を使用すると、エンドツーエンドの多くのモデルパイプラインに、モデルトレーニング、バッチ推論デプロイ、リアルタイムデプロイを含めることができます。

多くのモデルソリューションでは、トレーニングとスコアリング中にモデルごとに異なるデータセットが必要です。たとえば、タスクがすべてのストア内の各項目の売上を予測する場合、各データセットは一意のアイテムストアの組み合わせに対応します。

考えられるユースケース

小売: 食料品店チェーンは、店舗と品目ごとに個別の収益予測モデルを作成する必要があり、店舗ごとに合計 1,000 を超えるモデルを作成する必要があります。
サプライチェーン: 配送会社は、倉庫と製品の組み合わせごとに、在庫を最適化する必要があります。
レストラン: 数千のフランチャイズを持つチェーンは、各フランチャイズの需要を予測する必要があります。

考慮事項

これらの考慮事項は、ワークロードの品質向上に使用できる一連の基本原則である Azure Well-Architected Framework の要素を組み込んでいます。詳細については、「Well-Architected Framework」を参照してください。

データパーティション: データをパーティションに分割することは、多くのモデルパターンを実装するために不可欠です。ストアごとに 1 つのモデルが必要な場合、各データセットには 1 つのストアのすべてのデータが含まれているため、ストアと同じ数のデータセットがあります。店舗別に製品をモデル化する場合は、製品と店舗の組み合わせごとにデータセットがあります。ソースデータ形式によっては、データのパーティション分割が簡単な場合や、広範なデータのシャッフルや変換が必要になる場合があります。 Spark と Synapse SQL はこれらのタスクに対して適切にスケーリングされますが、Python pandas は単一のノードとプロセスで実行されるため、スケーリングされません。
モデル管理: トレーニングパイプラインとスコアリングパイプラインは、各データセットに対して適切なモデルを識別して起動します。これを行うには、データセットを特徴付けるタグを計算し、タグを使用して一致するモデルを見つけます。タグは、データパーティションキーとモデルバージョンを識別し、他の情報を提供することもあります。
適切なアーキテクチャを選択する:
- Spark は、トレーニングパイプラインに複雑なデータ変換とグループ化の要件がある場合に適しています。製品の店舗や場所などの特性の組み合わせによってデータをグループ化する柔軟な分割とグループ化の手法を提供します。結果は、後続の手順で使用するために Spark DataFrame に配置できます。
- 機械学習のトレーニングアルゴリズムとスコアリングアルゴリズムが単純な場合は、scikit-learn などのライブラリを使用してデータをパーティション分割できる場合があります。このシナリオでは、Spark が不要な場合があるため、Azure Synapse Analytics または Azure Databricks をインストールするときに発生する可能性のある複雑さを回避できます。
- トレーニングデータセットが既に作成されている場合 (個別のファイルに格納されている場合や、個別の行または列に編成されている場合など)、複雑なデータ変換には Spark は必要ありません。
- Machine Learning およびコンピューティングクラスターソリューションは、複雑なセットアップが必要な状況に対して汎用性を提供します。たとえば、カスタム Docker コンテナーを使用したり、ファイルをダウンロードしたり、事前トレーニング済みモデルをダウンロードしたりできます。コンピュータービジョンと自然言語処理のディープラーニングは、この汎用性を必要とする可能性があるアプリケーションの例です。
個別のモデルリポジトリ: デプロイされたモデルを保護するには、トレーニングパイプラインとテストパイプラインがアクセスしない独自のリポジトリに格納することを検討してください。
ParallelRunStep クラス: Python ParallelRunStep クラスは、多くのモデルのトレーニングと推論を実行するための強力なオプションです。さまざまな方法でデータをパーティション分割し、パーティションの要素に機械学習スクリプトを並列で適用できます。他の形式の Machine Learning トレーニングと同様に、Python パッケージインデックス (PyPI) パッケージにアクセスできるカスタムトレーニング環境、または標準の PyPI 以上を必要とする構成用のより高度なカスタム Docker 環境を指定できます。選択可能な CPU と GPU は多数存在します。
オンライン推論: パイプラインが最初からすべてのモデルを読み込んでキャッシュすると、モデルによってコンテナーのメモリが枯渇する可能性があります。そのため、待機時間が若干長くなる可能性がある場合でも、run メソッドでモデルをオンデマンドで読み込む必要があります。

コストの最適化

コストの最適化では、不要な経費を削減し、運用効率を向上させる方法に重点を置いています。詳細については、「コスト最適化の設計レビューチェックリスト」を参照してください。

Azure でこのシナリオを実行するためのコストを理解するには、料金計算ツールを使用します。次のことを想定する必要があります。

サービスモデルは、最新の状態を維持するために毎日トレーニングされます。
10,000 の一意の店舗と製品の組み合わせの 4,000 万行を含むデータセットを処理するには、約 30 分必要です。データセットは、Ls16_v2 インスタンスを使用する 12 台の仮想マシン (VM) でプロビジョニングされたクラスターを使用して、Azure Databricks 上でトレーニングします。同じデータのセットを使用したバッチスコアリングでは、約 20 分かかります。
機械学習を使用してリアルタイムの推論をデプロイすることができます。要求ボリュームに応じて、適切な種類の VM とクラスターサイズを選択します。
AKS クラスターは、必要に応じて自動的にスケーリングされ、毎月平均 2 つのアクティブノードになります。

ユースケースでの価格の違いを確認するには、価格計算ツールの変数を、予想されるデータサイズとサービスの負荷要件に合わせて変更します。トレーニングデータのサイズを拡大または縮小する場合は、Azure Databricks クラスターのサイズを増減させます。モデルの処理中に同時実行ユーザーを増やすには、AKS クラスターのサイズを増やします。

共同作成者

Microsoft では、この記事を保持しています。次の共同作成者がこの記事を書きました。

プリンシパル作成者:

James Nguyen | プリンシパルクラウドソリューションアーキテクト

公開されていない LinkedIn プロフィールを見るには、LinkedIn にサインインしてください。

次のステップ

Machine Learning 用に Kubernetes クラスターを構成する
多くのモデルソリューションアクセラレータの GitHub リポジトリ
ParallelRunStep クラスをする
DataTransferStep クラスをする
データストアの作成
Azure Synapse Analytics とは
AKS クラスターにモデルをデプロイする

次の方法で共有

多モデルアプローチを使用して機械学習モデルをスケーリングする

Architecture

データフロー

コンポーネント

代替

シナリオの詳細

考えられるユースケース

考慮事項

コストの最適化

共同作成者

次のステップ

フィードバック

その他のリソース

次の方法で共有

多モデル アプローチを使用して機械学習モデルをスケーリングする

Architecture

データフロー

コンポーネント

代替

シナリオの詳細

考えられるユース ケース

考慮事項

コストの最適化

共同作成者

次のステップ

関連リソース

フィードバック

その他のリソース

多モデルアプローチを使用して機械学習モデルをスケーリングする

考えられるユースケース