일반적인 문제 해결 절차 수행
이 단원을 마치면 일반적인 운영 상태 확인과 발생할 수 있는 일반적인 문제 몇 가지에 대한 절차를 설명할 수 있게 됩니다.
Azure Cyclecloud에 제출한 작업이 보류 중(PD) 상태가 되는 이유는 무엇인가요?
PD(보류 중) 상태의 작업은 작업이 제출되었지만 Cyclecloud가 작업을 실행하는 데 사용할 수 있는 노드를 아직 찾지 못했음을 나타냅니다. 이는 리소스 부족, 잘못된 작업 사양, 노드 실패와 같은 여러 가지 이유로 인해 발생할 수 있습니다.
작업 스크립트를 구성할 때 요청된 리소스가 클러스터의 한도 내에 있는지 확인해야 합니다. 이는 작업에 시간이 더 많이 필요하거나 작업에 템에서 사용할 수 있는 것보다 더 많은 메모리를 요구하는 경우 작업이 큐에 영원히 갇히게 되더라도 할당된 시간이 끝나면 스케줄러가 작업을 종료하기 때문입니다.
Azure Cyclecloud 작업에 대해 노드가 요청되었는지 여부를 확인하기 위해 수행할 수 있는 단계는 무엇인가요?
Slurm squeue
명령을 사용하여 작업 상태를 확인할 수 있습니다.
노드/스케줄러에 대한 slurm 로그의 위치는 무엇인가요? (Slurm)
Azure CycleCloud에서 노드 및 스케줄러에 대한 Slurm 로그의 위치는 Slurm 클러스터의 구성에 따라 달라집니다. 기본적으로 로그는 다음 위치에 저장됩니다.
Slurm 컨트롤러 로그는 일반적으로 컨트롤러 노드의 /var/log/slurm/slurmctld.log
에 저장됩니다. 정확한 경로는 구성에 따라 달라질 수 있습니다. Slurm 구성 파일(일반적으로 /etc/slurm/slurm.conf
)에서 SlurmctldLogFile
매개 변수를 확인하여 로그 파일 경로를 찾을 수 있습니다.
Slurm 컴퓨팅 노드 로그는 일반적으로 각 컴퓨팅 노드의 /var/log/slurm/slurmd.log
에 저장됩니다. 정확한 경로는 구성에 따라 달라질 수 있습니다. Slurm 구성 파일(일반적으로 /etc/slurm/slurm.conf
)에서 SlurmdLogFile
매개 변수를 확인하여 로그 파일 경로를 찾을 수 있습니다.
로그 파일에 액세스하려면 SSH를 통해 컨트롤러 또는 컴퓨팅 노드에 로그인하고 적절한 로그 파일 경로로 이동할 수 있습니다. 로그 파일 경로를 변경해야 하는 경우 Slurm 구성 파일에서 SlurmctldLogFile
및 SlurmdLogFile
매개 변수를 수정할 수 있습니다.
작업은 어떻게 제출하나요? (Slurm)
Slurm을 작업 스케줄러로 사용할 때 Azure CycleCloud에 작업을 제출하려면 다음 단계를 수행합니다.
- Azure CycleCloud 인스턴스로 로그인합니다.
- 작업을 제출할 클러스터를 식별합니다. 주 대시보드의 클러스터 목록을 볼 수 있습니다.
- SSH를 사용하여 Slurm 클러스터의 헤드 노드(컨트롤러)에 연결합니다.
- 헤드 노드에 연결되면 Slurm 작업 스크립트를 만듭니다. 작업 스크립트는 Slurm 지시문과 작업에서 실행하려는 명령을 포함하는 간단한 셸 스크립트입니다.
sbatch
명령을 사용하여 작업을 제출합니다.- 또는
squeue
,sinfo
또는sacct
과(와) 같은 Slurm 명령을 사용하여 작업의 상태를 모니터링합니다. - 작업이 완료되면 지정된 출력 파일(이 예제에서는
my_job_output.txt
)에서 출력을 볼 수 있습니다.