Azure インフラストラクチャ (IaaS) での AI ワークロードの管理に関する推奨事項
この記事では、Azure インフラストラクチャ (IaaS) で AI ワークロードを実行している組織の管理に関する推奨事項を紹介します。 Azure で AI ワークロードを効果的に管理するには、継続的な監視、最適化のプラクティス、強力なバックアップと復旧の戦略が必要です。 これらの取り組みはダウンタイムを最小限に抑え、AI 操作の信頼性を確保します。
AI インフラストラクチャの監視
AI インフラストラクチャの監視には、Azure IaaS での AI デプロイ内のすべてのコンポーネントのパフォーマンス、正常性、可用性の追跡と評価が含まれます。 プロアクティブな監視により、組織は操作に影響を与える前に潜在的な問題を検出し、解決することができます。
既定で監視を確実に実行します。 必要な Azure Monitor エージェントを仮想マシンと Azure 仮想マシン スケール セットにデプロイします。これには、Azure Arc に接続されたサーバーも含まれます。 それらを管理サブスクリプションの中央 Log Analytics ワークスペースに接続します。 Azure Monitor ベースライン アラート (AMBA) の使用を検討してください。
Azure Update Manager を使用します。 単一の管理ウィンドウから、Azure およびオンプレミス内/(Azure Arc によって接続された) 他のクラウド プラットフォーム上のすべてのマシンにわたって Windows および Linux の準拠している更新を監視することができます。 また、Update Manager ではリアルタイムの更新や、定義されたメンテナンス期間内での更新をスケジュールすることもできます。
仮想マシンを監視します。 仮想マシン (VM) ホスト データ (物理ホスト) と VM ゲスト データ (オペレーティング システムとアプリケーション) を監視します。 VM Insights を使用してオンボードを簡素化し、定義済みのパフォーマンス グラフにアクセスし、依存関係マッピングを利用することを検討してください。 スポット VM の退避とメンテナンス イベントを追跡して、中断を効果的に管理します。 詳細については、「スケジュール化されたイベント」を参照してください。
ネットワークを監視します。 VM にログインせずに、ネットワークの問題を監視および診断できます。 パケット レベルでリアルタイムのパフォーマンス情報を取得します。 パフォーマンス診断ツールでパフォーマンスの問題のトラブルシューティングを行います。 デプロイされたすべてのネットワーク リソースのトポロジ、正常性、指標を追跡します。
ストレージを監視します。 ローカル SSD、接続されたディスク、ファイル共有、Azure ストレージ アカウントなど、ストレージのパフォーマンスを監視します。
オーケストレーター監視機能を使用します (該当する場合)。 Azure CycleCloud、Azure Batch、Azure Kubernetes Service (AKS) などのオーケストレーターの組み込みの監視機能の使用を検討してください。 選択したオーケストレーターのガイダンスに従います。
Slurm 用の Azure CycleCloud または Azure CycleCloud ワークスペース: CPU、ディスク、ネットワークのメトリックを追跡します。 Azure CycleCloud クラスターから Log Analytics にデータを格納し、カスタム メトリック ダッシュボードを作成します。 詳細については、「Azure CycleCloud の監視」を参照してください。 ノード ヘルス チェック は、HPC/AI ハードウェアが正常であることを確認するための一連の自動テストです。 このチェックは、クラスター デプロイの一部として Azure CycleCloud で実行することも、GitHub リポジトリの手順を使用して個別に実行することもできます。 ドキュメントの互換性マトリックスに注意してください。 AI ワークロードを実行する前に異常なノードを確実に特定できるように、必要に応じて実行します。
Azure Batch: アクティブなタスク、タスクの期間、ジョブの開始時刻、期間、タスクの開始時刻など、ジョブとタスクのメトリックを収集します。 また、アイドル ノード、実行中のノード、CPU 使用率、ディスク I/O などのプール メトリックも収集します。 詳細については、「Azure Batch の監視」を参照してください。
Azure Kubernetes Service。 コンテナー用の Azure Monitor を使用します。 ポッドのパフォーマンス、ノードの正常性、リソースの使用率を監視します。 アラートとカスタム ダッシュボードを設定します。
ビジネス継続性とディザスター リカバリーの管理
Azure で AI アプリケーションのビジネス継続性とディザスター リカバリーを管理することで、組織は中断から迅速に復旧できます。 リアルタイム レプリケーション、自動復旧、定期的なバックアップなどの戦略を実装することで、データ損失や運用のダウンタイムから AI インフラストラクチャを保護することができます。
Azure Site Recovery を使用してください。 Site Recovery ではリアルタイムのレプリケーションと自動復旧を使用して、リージョン間でワークロードをレプリケートします。 VM ワークロード用の組み込みプラットフォーム機能では、低い RPO および RTO の要件を満たせます。 Site Recovery を使用すると、運用環境のワークロードに影響を与えることなく、復旧訓練を実行できます。 また Azure Policy を使用して、レプリケーションを有効にしたり、VM の保護を監査したりすることもできます。
オーケストレーター機能 (該当する場合) を使用します。 オーケストレーターを使用して、失敗したコンピューティング ノードを復旧します。 たとえば、障害が発生した場合にタスクを自動的に再試行するように Azure Batch を構成します。
バックアップのスケジュールを設定します。 データセットとモデルに対する増分変更を毎日または毎週バックアップする必要があるかどうかを判断します。 バックアップには、データベースまたはデータセット全体を含めることもできます。
データのコンプライアンスを確保します。 バックアップ戦略がデータ保護規則に準拠していることを確認します。 データ所在地の要件を遵守し、適切な地理的位置にバックアップを格納します。
スナップショットを作成します。 スナップショットはスケジューラの機能で取得できます。 たとえば、CycleCloud
は、基になるアプリケーション データストアの特定の時点のスナップショットを復旧ポイントとして取得できます。