다음을 통해 공유


작업에 대해 제외된 노드 설정 및 지우기

특정 노드에서 태스크가 일관되게 실패하는 경우 해당 노드를 제외 노드 작업 속성에 추가하여 하나 이상의 작업에서 해당 노드를 제외할 수 있습니다. 제외 노드노드를 지정하는 경우:

  • 제외된 노드 추가된 노드에서 실행되는 작업의 작업은 취소되고 실패한 표시됩니다(노드 릴리스 작업 제외).

  • 노드 릴리스 작업은 노드가 해제되기 전에 제외된 노드에서 실행됩니다.

  • 제외된 노드나열된 노드에서 작업의 태스크가 시작되지 않습니다.

  • 제외 노드 목록에 추가하면 작업이 최소 리소스 요구 사항 아래로 떨어지면 작업이 취소되고 다시 큐에 추가됩니다.

활성 작업의 경우 제외 노드 작업 속성에서 노드를 추가하거나 제거하거나 목록을 지울 수 있습니다. 다음은 HPC PowerShell 또는 명령 프롬프트를 사용하여 제외된 노드 목록을 수정하고 보는 명령을 나열합니다.

HPC PowerShell에서 Set-HpcJobcmdlet을 사용합니다. 예를 들면 다음과 같습니다.

  • Set-HpcJob –JobId <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • Set-HpcJob –JobId <yourJobID> /clearExcludedNodes

  • (Get-HpcJob –JobId <yourJobID>).ExcludedNodes

  • 또는 모든 작업 속성을 보려면 Get-HpcJob –JobId <yourJobID>|fl

명령 프롬프트에서 작업 수정 명령을 사용합니다. 예를 들면 다음과 같습니다.

  • job modify <yourJobID> /addExludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /removeExcludedNodes <nodeName>, <nodename>

  • job modify <yourJobID> /clearExcludedNodes

  • job view <yourJobID> /detailed|find “excludednodes” /i

  • 또는 모든 작업 속성을 보려면 job view <yourJobID> /detailed

메모

SOA 작업의 경우 broker 노드는 서비스 구성 파일의 EndPointNotFoundRetryPeriod 설정에 따라 제외된 노드 목록을 자동으로 업데이트하고 유지 관리합니다. 이 설정은 서비스 호스트가 서비스 로드를 다시 시도하는 시간과 브로커가 연결을 기다려야 하는 기간을 지정합니다. 이 시간이 경과하면 broker는 제외된 노드 목록에 노드(서비스 호스트)를 추가합니다. 서비스 구성에는 세션이 실패하기 전에 제외할 수 있는 노드 수를 지정하는 maxExcludedNodes 설정도 포함됩니다.

클러스터에서 제외된 노드 모니터링

클러스터에서 제외된 모든 노드를 보려면 Get-HpcJob PowerShell cmdlet을 사용합니다. 다음 예제에서는 현재 제출된 작업에 대해 제외된 모든 노드를 나열하는 방법을 보여 줍니다. 또한 스크립트는 노드를 제외한 작업에 사용된 작업 템플릿을 나열합니다. 다음 cmdlet에서 오늘 날짜 mm/dd/yyyy와 같은 날짜 형식으로 지정됩니다.

Get-HpcJob –beginSubmitDate <today’s date>|select ExcludedNodes, Job Template|sort

클러스터 관리자가 하나 이상의 노드에서 문제를 감지하고 해결하면 관리자가 나타나는 노드 제외 목록에서 고정 노드를 제거할 수 있습니다. 다음 cmdlet은 모든 활성 작업을 가져오고 노드 제외 목록에서 고정 노드를 제거합니다(지정된 노드를 나열하지 않는 작업에는 영향을 주지 않음).

Get-HpcJob|Set-HpcJob –removeExcludedNodes <fixedNodeName>,<fixedNodeName>