Azure Kubernetes Service (AKS) での機械学習の運用 (MLOps) に関するベスト プラクティス
この記事では、AKS で MLOps を使用する際に覚えておくべきベスト プラクティスと考慮事項について説明します。 MLOps について詳しくは、「AI と機械学習ワークフローのための機械学習の運用 (MLOps)」を参照してください。
Infrastructure as Code (IaC)
IaC を利用すれば、さまざまな種類のアプリケーション用に、一貫性と再現性のあるインフラストラクチャのプロビジョニングと管理が可能になります。 インテリジェントなアプリケーションのデプロイでは、IaC の実装は AI パイプライン全体を通して変化する場合があります。モデルの推論、サービス、トレーニング、微調整に必要なコンピューティング能力とリソースは、変化する可能性があるためです。 AI 開発者チーム用に IaC のテンプレートを定義してバージョン管理することで、各種ジョブ間で一貫性とコスト効率を確保しながら、その個々のハードウェア要件を明らかにし、デプロイ プロセスを加速させることができます。
コンテナー詰め
モデルの重み、メタデータ、構成をコンテナー イメージで管理すれば、移植性とバージョン管理の簡素化を実現し、時間の経過と共にストレージ コストの削減を図ることができます。 コンテナー化を使えば、次のことができます。
- 安全なコンテナー レジストリに格納されている既存のコンテナー イメージを活用する。特に、数百万から数十億ものパラメーターでサイズが変化する大規模言語モデル (LLM) や、Stable Diffusion 拡散モデルなど。
- 1 つの大きなイメージを管理する代わりに、タスクごとに一意の依存関係を含む複数の軽量コンテナーを使って、パイプライン内の単一障害点 (SPOF) を排除する。
- ベース コンテナー イメージの外部に大規模なテキスト/画像データセットを格納し、実行時に必要に応じて参照する。
Kubernetes AI ツールチェーン オペレーターの使用を開始して、わずか数分で AKS にハイ パフォーマンス LLM をデプロイしましょう。
モデルの管理とバージョン管理
モデルの管理とバージョン管理は、時間の経過に伴うモデルの変更を追跡するために不可欠です。 モデルをバージョン管理することで、次のことができます。
- 各モデル コンテナー間で一貫性を維持し、さまざまな環境でのデプロイを容易にする。
- Parameter-Efficient Fine-Tuning (PEFT) メソッドを使用して、モデルの重みのサブセットを高速に反復処理し、新しいバージョンを軽量コンテナーで維持する。
自動化
自動化は、手作業の誤りを減らし、効率を高め、ML ライフサイクル全体で一貫性を確保するための鍵となります。 タスクを自動化することで、次のことができます。
- アラート ツールを統合し、ベクトル インジェスト フローをアプリケーションへの新しいデータ フローとして自動的にトリガーする。
- モデル パフォーマンスのしきい値を設定してその低下を追跡し、再トレーニング パイプラインをトリガーする。
スケーラビリティとリソース管理
スケーラビリティとリソース管理は、AI パイプラインがアプリケーションの要求を確実に処理できるようにするために不可欠です。 リソース配分状況を最適化することで、次のことができます。
- 各ツールを統合し、分散コンピューティングと複数レベルの並列処理 (データ、モデル、パイプラインの並列処理など) により、割り当てられた CPU、GPU、メモリのリソースを効率的に使用する。
- コンピューティング リソースの自動スケーリングを有効にして、ピーク時の高いモデル要求量をサポートし、ピーク時以外にはスケールダウンする。
- 従来のアプリケーションと同様に、AKS の回復性と信頼性のベスト プラクティスに従ってディザスター リカバリーの計画を立てる。
セキュリティとコンプライアンス
セキュリティとコンプライアンスは、データを保護し、AI パイプラインで確実に規制要件を満たすために、非常に重要です。 セキュリティとコンプライアンスのベスト プラクティスを実装することで、次のことができます。
- 共通脆弱性および露出 (CVE) のスキャンを統合して、オープンソース モデルのコンテナー イメージの共通脆弱性を検出する。
- Azure Container Registry に格納されているモデル コンテナー イメージに対して Microsoft Defender for Containers を使用する。
- 取り込まれたデータ、モデルの変更、メトリックの監査証跡を維持して、組織のポリシーに準拠し続ける。
次のステップ
AKS でのアプリケーションのデプロイと運用に関する、他の領域のベスト プラクティスについて学習します。
Azure Kubernetes Service