Azure ハイ パフォーマンス コンピューティング (HPC) ランディング ゾーン アクセラレータ
ハイ パフォーマンス コンピューティング (HPC) ランディング ゾーン アクセラレータにより、環境のデプロイが自動化されます。 この環境には、Azure で完全な HPC クラスター ソリューションを実現するためのエンド ツー エンドのデプロイ メカニズムを作成するようにカスタマイズできる基本フレームワークが用意されています。 アクセラレータは、エンタープライズ規模のランディング ゾーンを準備することができるオープンソース スクリプトとテンプレートのコレクションです。 固有のアーキテクチャ アプローチと、クラウド導入フレームワークのアーキテクチャとベスト プラクティスに準拠したリファレンス実装を提供できます。
顧客は、ビジネス ニーズに合わせてさまざまな方法で HPC を採用し、HPC ランディング ゾーン アクセラレータを適合させ、 自分 の方法に合ったアーキテクチャを作成できます。 アクセラレータを使用すると、組織を持続可能なスケールの方向に導くことに役立ちます。
エンタープライズ規模のランディング ゾーンを実装する
HPC ランディング ゾーン アクセラレータは、正常に実装されたエンタープライズ規模のランディング ゾーンから開始していることを前提としています。 この前提条件の詳細については、次の記事を参照してください。
HPC ランディング ゾーン アクセラレータによって提供されるもの
HPC ランディング ゾーン アクセラレータのランディング ゾーンへのアプローチでは、プロジェクトに次の資産が提供されます。
- モジュール式のアプローチ。環境変数をカスタマイズできるようになります
- 重要な意思決定の評価に役立つ設計ガイドライン
- ランディング ゾーンのアーキテクチャ
- 以下を含む実装:
- 独自の HPC デプロイの環境を作成できるデプロイ可能なリファレンス
- デプロイされた環境をテストするために Microsoft が承認した HPC のリファレンス実装
エネルギー、製造、金融業界向けの設計ガイドライン
ランディング ゾーンのアーキテクチャは、組織によって異なるだけでなく、ビジネス セクターによっても異なります。 このセクションでは、ランディング ゾーンを作成するためのガイドラインを提供するセクター別の記事を示します。
エネルギー (石油・ガス)
- エネルギー業界向け HPC の Azure 課金管理と Microsoft Entra テナント
- エネルギー業界における Azure HPC の ID およびアクセス管理
- エネルギー分野における Azure HPC の管理
- エネルギー業界 Azure HPC 向けのネットワーク トポロジと接続
- エネルギー業界における、Azure HPC 向けのプラットフォーム自動化と DevOps
- エネルギー業界における HPC のリソース編成
- エネルギー業界における HPC のガバナンス
- エネルギー業界向け Azure HPC のセキュリティ
- Azure VM で大規模な HPC アプリケーション ワークロードを計算する
- エネルギー環境向け HPC のストレージ
製造
Finance
AI ワークロード用の HPC コンピューティングを選択するための設計ガイドライン
パフォーマンスを最適化し、コストを制御するには、AI ワークロードに適した GPU 最適化コンピューティングの SKU を選択することが重要です。 Microsoft は、より多くの GPU パワーの恩恵を受けるワークロード用に最適化されたさまざまな SKU を提供しています。 AI ワークロードに適した SKU を選択する際には、いくつかの考慮事項があります。 ワークロードが小さい場合は、NDv4 のようなより強力な SKU の CPU、GPU、帯域幅の一部のみを利用できます。 小規模なジョブでは、NCv4 や NDv2 などの他のコンピューティング SKU を検討する必要があります。 AI ワークロード用に GPU 最適化コンピューティングの適切な SKU を選択する場合の考慮事項を次に示します:
- チェックポイント機能。 機械学習モデルを実行するときのチェックポイント間隔などの要因を考慮してください。 これは、トレーニング フェーズ中に GPU のパフォーマンスに影響を与える可能性があります。 ストレージ効率とスムーズな GPU 操作の維持のバランスを取ります。 GPU の使用状況を監視します。
- 推論。 推論要件はトレーニング要件とは異なり、CPU のパフォーマンスを最大限に高めることで CPU 負荷が高くなる可能性があります。 コンピューティング SKU を選択する場合は、モデルの推論要件を考慮してください。 CPU 使用率を監視します。
- トレーニング。 CPU と GPU の両方の使用率を監視し、トレーニング中にモデルの要件を検討します。
- ジョブのサイズ設定。 AI ワークロードのコンピューティング SKU を検討する場合は、ジョブのサイズを考慮してください。 OPT 1.3B ほど小さいジョブでは、大きいサイズの SKU を利用できず、ジョブのステージ (推論、トレーニング) によっては CPU と GPU の電源がアイドル状態になる可能性があります。
- 帯域幅。 大きく、待機時間の少ない帯域幅は、使用されていない場合にコストが発生する可能性があります。 追加の帯域幅を必要とする最大のモデルに対してのみ InfiniBand を検討してください。
Azure の GPU 最適化済み仮想マシンのサイズ を参照してください。
例: エネルギー業界向けの概念リファレンス アーキテクチャ
次の概念リファレンス アーキテクチャは、エネルギー 環境向けの設計領域とベスト プラクティスを示す例です。
例: 金融業向けの概念リファレンス アーキテクチャ
次の概念リファレンス アーキテクチャは、金融 環境向けの設計領域とベスト プラクティスを示す例です。
例: 製造業向けの概念リファレンス アーキテクチャ
次の概念リファレンス アーキテクチャは、製造 環境向けの設計領域とベスト プラクティスを示す例です。
HPC ランディング ゾーン アクセラレータを取得する
HPC ランディング ゾーン アクセラレータは、GitHub で入手できます: Azure HPC OnDemand プラットフォーム アクセラレータ
次の手順
HPC ランディング ゾーン アクセラレータ アーキテクチャに関する考慮事項と推奨事項については、「Azure ID およびアクセス管理」に記載された HPC ランディング ゾーン アクセラレータの重要な設計領域を確認してください。