次の方法で共有


ノードの状態、正常性、および操作について

ノード状態 は、ノードのデプロイ状態と、管理者がノードをクラスター ジョブのリソースとして使用できるようにするかどうかを反映します。 管理者はノードを Online 状態にして、ノードがジョブまたはクライアント要求を受け入れる必要があることを示します。

Node Health は、HPC サービスがそのノードで認識している警告またはエラーがあるかどうかを示します。 ノードの正常性値が Errorの場合、ノードの状態がオンライン場合でも、ノードはジョブまたはクライアント要求を受け入れることができません。

通常の操作中、ノードの正常性値は OKです。 次の一覧では、通常のノード状態の値について説明します。

  • ヘッド ノードのノード状態の値は、オフラインです。 ヘッド ノードがコンピューティング ノードまたは WCF ブローカー ノードとしても機能している場合、または高可用性のためにヘッド ノードがインストールされている場合、通常のノードの状態値はオンライン

  • コンピューティング ノードと Windows Communication Foundation (WCF) ブローカー ノードのノード状態値は、Onlineです。

  • ワークステーション ノードは、可用性ポリシーに従って、Online またはオフラインノード状態の値を持つことができます。

  • Windows Azure で定義されているがデプロイされていない Windows Azure ノードの場合、通常のノード状態の値は [デプロイされていません]。 デプロイされる Windows Azure ノードの通常のノード状態の値は、Onlineです。

クラスターの正常性を監視および維持するプロセスの一部は、通常のノードの状態と正常性からの逸脱を見つけ出し、クラスター操作の状態を監視することです。

このトピックのセクションでは、次の値について説明します。

ノードの状態

ノードの状態には、ノードのデプロイ状態が反映され、管理者がそのノードをクラスター ジョブのリソースとして使用できるようにするかどうかが反映されます。

ヘッド ノードが最初にネットワーク上のオンプレミス ノードを検出すると、ノードは 不明な 状態で表示されます。 管理者がノード テンプレートを割り当ててクラスターにノードを追加すると、ノードは Provisioning 状態に移行します。 ノードがクラスターに正常に参加すると、オフライン 状態に移動します。

管理者がクラスターに Windows Azure ノードを追加すると、デプロイされていない 状態に表示されます。 Windows Azure ノードが起動されると (つまり、インスタンスは Windows Azure にデプロイされます)、ノードは Provisioning 状態に移行します。 プロビジョニングが正常に完了すると、手動で開始された Windows Azure ノードは オフライン 状態になり、起動された Windows Azure ノードは自動的に Online 状態になります。

管理者がワークステーション ノードと非管理対象サーバー ノードをクラスターに追加し、ノード テンプレートが割り当てられた後、そのノード をオンラインにしてクラスター ジョブを実行し、オフラインにして通常のワークロードを再開できます。 ノード テンプレートで手動でオンラインおよびオフラインにするように構成されているノードは、最初はオフラインになります。 週単位の可用性ポリシーに従ってオンラインおよびオフラインにするように構成されたノードは、そのポリシーに従い始め、スケジュールされた間隔で自動的にオンラインになります。

管理者は、ノード オンライン に移動するか、ノード オフライン を使用して、ノードがクラスター ジョブを受け入れて実行するかどうかを示します。 Windows Azure ノードとワークステーション ノードは、毎週の可用性ポリシーに従って、オンライン またはオフライン することもできます。 HPC ジョブ スケジューラ サービスは、Online 状態のノードでのみ新しいジョブを開始しようとします。 新しいジョブでノードを使用できないようにするために、管理者はノードをオフライン受け取ることができます。 再イメージ化 やの保守など、一部の管理アクションを実行するには、ノードが オフライン 状態 必要があります。

ノード リスト ビューを使用して、各ノードの状態を表示し、ノードの状態でコンピューティング ノードをフィルター処理できます。

次の表では、ノード状態の値について説明します。

ノードの状態 形容
Online この状態は、ノードがクラスター ジョブを受け入れて実行する必要があることを示します。 WCF ブローカー ノードの場合、この状態は、SOA セッションを管理するために使用できる必要があることを示します。 HPC ジョブ スケジューラ サービスは、Online 状態のノードにのみ作業を割り当てようとします。

ジョブを実行 (またはセッションを管理) するには、ノードが Online ノード状態で正常である必要があります。 ノードの正常性がエラー場合、ジョブはそのノードで開始できません。

ノードは、クラスター管理者 オンライン または オフライン に取り込むことができます。 Windows Azure ノード、ワークステーション ノード、およびアンマネージド サーバー ノードは、週単位の可用性ポリシーに従って、オンライン
または オフライン 持ち込むこともできます。
オフライン の この状態は、ノードを使用してクラスター ジョブを実行しないことを示します。 WCF ブローカー ノードの場合、SOA セッションの管理には使用しないことを示します。 この状態により、クラスター管理者はスクリプトを実行し、ソフトウェアをインストールし、ノードで他のタスクを実行できます。 これは、クラスター管理者がクラスターに含めるノードを承認した後のノードの既定の状態です。

これはヘッド ノードの通常の状態です (高可用性のためにインストールされている場合を除く)。 コンピューティング ノードや WCF ブローカー ノードなどの追加のノード ロールを実行する場合は、ヘッド ノードをオンライン に できます。 詳細については、「Microsoft HPC Packのノード ロールについて」を参照してください。

ノードは、クラスター管理者 オンライン または オフライン に取り込むことができます。 Windows Azure ノード、ワークステーション ノード、およびアンマネージド サーバー ノードは、週単位の可用性ポリシーに従って、オンライン
または オフライン 持ち込むこともできます。

ジョブの実行中にノードがオフラインになると、最初に Draining 状態になります。 管理者がノードをすぐに強制的にオフラインにすることを選択した場合、実行中のタスクはすべて取り消され、ジョブ内で再キューされます。
不明な この状態は、ノードがクラスターに含まれていないか、そのノードでプロビジョニング操作が失敗したことを示します。

ノードをクラスターに参加させるために、ノードに ノード テンプレートの割り当て アクションを適用します。

高可用性クラスターでは、最初のヘッド ノードでセットアップを実行した後、そのノードでセットアップが実行されるまで、2 番目のヘッド ノードは 不明な 状態になります。 セットアップ後、2 番目のヘッド ノードは Online 状態に移行します。
プロビジョニング オンプレミス ノード

この状態は、ノードがクラスター ノードとして構成されていることを示します。 ノード テンプレートの割り当て再イメージ化、および 管理 アクションによって、ノードもプロビジョニング状態になります。 プロビジョニングが完了すると、ノードは オフライン 状態になります。

Windows Azure ノード

この状態は、ノード インスタンスが Windows Azure にデプロイされていることを示します。 アクションの開始または自動可用性ポリシーによって、Windows Azure ノードをプロビジョニング状態にすることができます。 プロビジョニングが正常に完了すると、手動で開始された Windows Azure ノードは オフライン 状態になり、起動された Windows Azure ノードは自動的に Online 状態になります。
開始 この状態は、ノードが オフライン モードから Online モードに移行していることを示します。 注:Start アクションでは、ノードは 開始 状態になりません。 開始 アクションは、Windows Azure ノードにのみ適用され、Windows Azure にノード インスタンスをデプロイするために使用されます。 開始 アクションが適用されると、ノードは プロビジョニング 状態になります。
ドレイン この状態は、ノードがオフラインになり、オフライン 状態に遷移していることを示します。 ノードは、現在実行中のジョブを完了してから、オフライン 状態になります。 ノードのドレインは、新しいジョブを受け入れません。
の削除 この状態は、ノードに関する情報が HPC Node Management Services データベースから削除されていることを示します。 削除 アクションにより、ノードがこの状態になります。 削除されたノード自体では何も変更されません。

ノードがクラスターに再参加しようとすると、データベース内のそのノードに対して新しいエントリが作成され、ノードは 不明な 状態で表示されます。
拒否された を する この状態は、ノードがクラスター管理者によって拒否されたことを示します。
デプロイされていない を する この状態は、Windows Azure ノードにのみ適用されます。

この状態は、Windows Azure ノードが定義され、クラスターに追加されたが、ノードが Windows Azure で開始およびプロビジョニングされていないことを示します (ノード インスタンスは Windows Azure で作成されていません)。 Windows Azure ノードは、ノード テンプレートで定義されている可用性ポリシーに従ってデプロイされます。手動 (開始 アクションを使用)、または週単位のスケジュールに基づいて自動的にデプロイされます。

デプロイされていない 状態の Windows Azure ノードでは、Windows Azure に料金は発生しません。
停止 この状態は、Windows Azure ノードにのみ適用されます。

この状態は、Windows Azure ノード インスタンスが Windows Azure から削除されていることを示します。 Windows Azure ノードは、ノード テンプレートで定義されている可用性ポリシーに従って停止されます。手動 (停止 アクションを使用)、または週単位のスケジュールに基づいて自動的に停止されます。

停止操作が完了すると (ノード インスタンスは Windows Azure から削除されます)、ノードは デプロイされていない 状態になります。

ノードの正常性

Node Health は、HPC サービスがそのノードで認識している警告またはエラーがあるかどうかを示します。

ノード リスト ビューを使用して、各コンピューティング ノードの正常性を表示し、ノードの正常性でノードをフィルター処理できます。 ノードの正常性がエラー または 警告場合は、Node Health タブの情報を確認して詳細を確認します。 詳細ウィンドウの (リスト ビュー) で、またはノードをダブルクリックして、[ノードの正常性] タブを表示できます。

次の表では、ノードの正常性値について説明します。

ノードの正常性 形容
OK HPC サービスは、ノードに関する問題を認識していません。
警告 この値は、次の値を示すことができます。

- クラスター管理者がノードで診断テストを実行し、1 つ以上のテストで 失敗 または Failed to Runの結果が返されました。 管理者は、診断アラートを手動でクリアできます (診断アラートの解決とクリア参照)。
- 1 つ以上のノード操作が FailedReverted、または canceled 状態 操作ログ を読み取り、問題を調査します。

問題の調査を開始するには、Node Health タブの情報を確認します。
エラー この値は、次の値を示すことができます。

- ノードに到達できません。これは、ハートビート オプションによって決まります。
- プロビジョニングに失敗しました。
- ノードがクラスター管理者によって拒否されました。 (ノード をクラスターに参加させる場合は、ノード テンプレートを割り当てることができます)。

問題の調査を開始するには、Node Health タブの情報を確認します。
移行 この値は、次のようなクラスター管理者が開始した操作をノードが実行していることを示します。

ノード テンプレートのの割り当て、再イメージ化、または の維持 (この場合、ノード状態はプロビジョニング) を します。
オンライン (その場合、ノードの状態はを開始 )。
オフライン (その場合、ノードの状態がドレイン
)。
Windows Azure ノードの を開始します (その場合、ノードの状態はプロビジョニング
)。

Node Health タブで追加情報を確認したり、操作を取り消したりできます。
承認されていない を する オンプレミス ノード

ノードはヘッド ノードによって検出されましたが、クラスターの一部ではありません。 ノード テンプレートを割り当てて、ノードをクラスターに参加させます。 クラスターへのノードの追加 も参照してください。

Windows Azure ノード

ノードはクラスターに追加されましたが、ノードは Windows Azure で開始およびプロビジョニングされていません (ノード インスタンスは Windows Azure に存在しません)。

操作の状態

操作ログを表示する方法については、「操作ログの読み取る」を参照してください。

次の表では、操作状態の値について説明します。

操作の状態 形容
アーカイブ済み 操作が 24 時間以上前であるか、診断テストがクリアされています。 操作がアーカイブされると、その操作は他の状態レポートから削除されます。
コミット済み の 操作が正常に完了しました。
実行中の 操作が進行中です。
失敗した 操作の実行に失敗しました。
の元に戻す 操作は元に戻されています。 操作のクリーンアップが完了すると、操作は 元に戻された 状態に移動します。
を元に戻すのに失敗しました 操作のクリーンアップが成功しなかった。
元に戻された 操作は、失敗または取り消し後に元に戻されました。

その他の参照