ジョブの除外されたノードの設定とクリア
特定のノードでタスクが常に失敗する場合は、そのノードを Excluded Nodes job プロパティに追加することで、そのノードを 1 つ以上のジョブから除外できます。 除外ノードでノードを指定する場合:
除外されたノード に追加されたノードで実行されているジョブのタスクは取り消され、失敗したとしてマークされます ( ノード リリース タスクを除く)。ノードリリース タスクは、ノードが解放される前に、除外されたノードで実行されます。
除外ノードにリストされているノードでは、ジョブ内のタスクは開始されません。
除外されたノード 一覧に追加すると、ジョブが最小リソース要件を下回る場合、ジョブは取り消され、再キューされます。
アクティブなジョブの場合は、除外されたノード jobs プロパティでノードを追加または削除するか、一覧をクリアできます。 HPC PowerShell またはコマンド プロンプトを使用して、除外されたノードの一覧を変更および表示するコマンドの一覧を次に示します。
HPC PowerShell で、Set-HpcJobコマンドレットを使用します。次に例を示します。
Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
Set-HpcJob –JobId <yourJobID> /clearExcludedNodes
(Get-HpcJob –JobId <yourJobID>).ExcludedNodes
または、すべてのジョブ プロパティを表示するには、
Get-HpcJob –JobId <yourJobID>|fl
コマンド プロンプトで、ジョブの modify コマンドを使用します。次に例を示します。
job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>
job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>
job modify <yourJobID> /clearExcludedNodes
job view <yourJobID> /detailed|find “excludednodes” /i
または、すべてのジョブ プロパティを表示するには、
job view <yourJobID> /detailed
手記
SOA ジョブの場合、ブローカー ノードは、(サービス構成ファイル内の) EndPointNotFoundRetryPeriod 設定に従って、除外されたノードの一覧を自動的に更新および維持します。 この設定では、サービス ホストがサービスの読み込みを再試行する期間と、ブローカーが接続を待機する時間を指定します。 この時間が経過すると、ブローカーはノード (サービス ホスト) を除外ノードの一覧に追加します。 サービス構成には、セッションが失敗するまでに除外できるノードの数を指定する maxExcludedNodes 設定も含まれています。
クラスター上の除外されたノードの監視
クラスター上のすべての除外されたノードを表示するには、Get-HpcJob PowerShell コマンドレットを使用します。 次の例は、今日送信されたジョブについて、除外されたすべてのノードを一覧表示する方法を示しています。 このスクリプトには、ノードを除外したジョブに使用されたジョブ テンプレートも一覧表示されます。 次のコマンドレットでは、今日の日付
Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort
クラスター管理者が 1 つ以上のノードで問題を検出して解決した場合、管理者は、そのノードが表示されているノード除外リストから固定ノードを削除できます。 次のコマンドレットは、すべてのアクティブなジョブを取得し、ノード除外リストから固定ノードを削除します (これは、指定されたノードを一覧表示しないジョブには影響しません)。
Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>