次の方法で共有


Azure ノードの可用性ポリシーについて

Azure ノードの可用性ポリシーは、Azure ノードを開始する方法とタイミング (ロール インスタンスが Azure にデプロイされる) と停止 (ロール インスタンスが Azure で削除される) を決定します。

Azure ノードの可用性を構成するには、次の 2 つのオプションがあります。

  • 自動 ノードは、毎週 1 つ以上のスケジュールされた間隔で開始 (プロビジョニング) され、Online 状態に自動的に構成されます。 ノードをジョブの実行に使用できるようにする場合は、毎週複数回指定できます。 各タイム ブロックの終了時に、ノードは自動的に停止されます。ノードはオフラインになり、ロール インスタンスは削除されます。 必要に応じて、ノードで実行されているジョブがドレインされるときに、オンライン ブロックの終了までの時間間隔を指定できます。

  • 手動 Azure ノードをジョブの実行に使用できるようにするには、まずノードを手動で開始 (プロビジョニング) してから、それらをオンラインにする必要があります。

その他の考慮事項

  • Azure ロール インスタンスのプロビジョニングには、いくつかの条件下で数分かかる場合があり、インスタンスの停止と削除には数分かかることがあります。

  • ノードは、Azure でロール インスタンスがプロビジョニングされた後にのみ、オンライン時間ブロックでジョブを実行できます。 ノードの開始 (およびオンライン化) のスケジュールされた時間には、Azure がロール インスタンスのプロビジョニングに要する時間は含まれません。

  • 自動可用性ポリシーが構成されている場合は、ベスト プラクティスとして、ノードを実行するためにノードを使用できるようにする時間に加えて、ノードのデプロイ用のオンライン時間ブロックごとに 60 分間計画します。 また、短い間隔でオンライン時間ブロックをスケジュールすることは避ける必要があります。

  • Azure ノード可用性ポリシーを編集すると、ノード テンプレートを使用して HPC クラスターに既に追加されているノードと、後で追加するノードのポリシーが変更されます。 たとえば、毎週のスケジュールに従って自動的に開始および停止するように構成されたノードが手動で開始および停止するように構成されるように、Azure ノード テンプレートを編集できます。

  • Azure ノード テンプレートの可用性ポリシーの構成とジョブ スケジューラ構成の [タスクの猶予期間の取り消し] 設定に応じて、Azure ノードが停止され、デプロイが終了する正確な時刻は、オンライン時間ブロックのスケジュールされた終了と異なる場合があります。 これは、オンライン 時間ブロックの終わり近くで HPC タスクがまだ実行されている場合に発生する可能性があります。 詳細については、「タスクの猶予期間の取り消し設定を使用した可用性ポリシーの相互作用」セクションを参照してください。

可用性ポリシーと [タスクの猶予期間の取り消し] 設定の相互作用

自動可用性ポリシーが構成されている場合、オンライン時間ブロックが経過した後、Azure ノードはジョブを開始しません。 ただし、[タスクの猶予期間の取り消し] 設定が構成されている場合、オンライン タイム ブロックの最後でまだ実行されている HPC タスクは、一定期間継続して実行できます。 タスクの猶予期間の取り消しクラスター プロパティは、アプリケーションが状態情報を保存し、終了する前にクリーンアップする期間を設定します (既定の期間は 15 秒です)。 タスクが終了する正確な時間は、タスクがCTRL_BREAK イベント (Ctrl + BREAK キーの組み合わせと同等) に応答するかどうかと、その応答速度によって異なります。 イベントを処理しないタスクは直ちに終了しますが、イベントを処理するタスクは、タスクキャンセル猶予期間が正常に終了するまでに時間がかかります。

次の表は、Azure ノードの可用性ポリシーと [タスクの猶予期間の取り消し] 設定の間の相互作用の結果、HPC タスクの実行が停止するタイミングをまとめたものです。 考えられる影響と回避策が一覧表示されます。 相互作用は、可用性ポリシーで "ドレイン" 期間が構成されているかどうかによって異なります。 ドレイン期間はオプションの設定で、オンライン 時間ブロックが終了するまでの時間を分単位で指定します。その間、それらのノードで新しいタスクが開始されない場合です。

可用性ポリシーで構成されたタスクドレイン期間 タスクの猶予期間の取り消しが開始されたとき HPC タスクの実行時に終了する 影響 回避策
はい ドレイン期間の開始 タスクがシグナルを受信したときに終了するか、タスクキャンセル猶予期間で指定された期間を使用するかに応じて、タスクキャンセル猶予期間の開始から終了までの間。 オンライン時間ブロックのスケジュールされた終了の前にすることができます。



- スケジュールされたオンライン時間ブロックの終了: 午後 8:00
- 猶予期間: 5 分
- ドレイン期間: 10 分

実行中のタスクは、午後 7 時 50 分から午後 7 時 55 分の間に終了します
- Azure ノードが停止され、デプロイが想定よりも早く停止されます。
- HPC タスクに対する Azure リソースの使用が最適でない場合があります。
- タスクキャンセル猶予期間をドレイン期間と同じか、可能な限り同様に調整します。
- アプリケーションで許可されている場合は、ドレイン期間と猶予期間に小さい値を指定します。
いいえ 構成されたオンライン時間ブロックの終了 タスクがシグナルを受信したときに終了するか、タスクキャンセル猶予期間で指定された期間を使用するかに応じて、タスクキャンセル猶予期間の開始から終了までの間。 オンライン時間ブロックのスケジュールされた終了の後にすることができます。



- スケジュールされたオンライン時間ブロックの終了: 午後 8:00
- 猶予期間: 5 分

実行中のタスクは、午後 8:00 から午後 8:05 の間に終了します
- HPC タスクは、タスクのキャンセル猶予期間が経過している限り、オンライン時間ブロックの終了を超えて実行を継続できます。
- Azure ノードのデプロイは、タスクのキャンセル猶予期間が経過している限り、ノードのタイム ブロックの末尾を超えて拡張できます。
- アプリケーションで許可されている場合は、[タスクのキャンセル猶予期間] を小さい値に調整します。

関連項目

Microsoft HPC Pack 用の Azure ノード テンプレートの構成
ノードの状態、正常性、および操作の について
タスクの猶予期間 の取り消し
Azure プロキシ ノードの数を設定