Conduzir procedimentos comuns de solução de problemas

Concluído

No final desta unidade, deverá ser capaz de descrever os procedimentos para verificações de estado operacional comuns e alguns problemas comuns que poderá encontrar.

Quais motivos podem fazer com que o trabalho que enviei para o Azure Cyclecloud fique preso no estado pendente (PD)?

Um trabalho no estado PD (pendente) indica que, embora um trabalho tenha sido enviado, o Cyclecloud ainda não encontrou nenhum nó disponível para executar o trabalho. Isso pode ser devido a muitos motivos, como recursos insuficientes, especificações de trabalho incorretas ou falhas de nós.

Ao configurar um script de trabalho, você deve garantir que os recursos solicitados estejam dentro dos limites do cluster. Isso ocorre porque o agendador mata o trabalho quando o tempo alocado termina, mesmo que o trabalho exija mais tempo ou fique preso na fila para sempre se o trabalho exigir mais memória do que o que está disponível no sistema.

Que etapas posso tomar para determinar se os nós foram solicitados para meu trabalho do Azure Cyclecloud?

Você pode usar o comando Slurm squeue para verificar o status do trabalho.

Qual é a localização dos logs do Slurm para nós/agendadores? (Slurm)

No Azure CycleCloud, o local dos logs do Slurm para nós e agendadores depende da configuração do cluster do Slurm. Por padrão, os logs são armazenados nos seguintes locais:

Os logs do controlador Slurm normalmente são armazenados no /var/log/slurm/slurmctld.log nó do controlador. O caminho exato pode variar dependendo da sua configuração. Você pode encontrar o caminho do arquivo de log verificando o SlurmctldLogFile parâmetro no arquivo de configuração do Slurm (geralmente /etc/slurm/slurm.conf).

Os logs do nó de computação Slurm normalmente são armazenados em /var/log/slurm/slurmd.log cada nó de computação. O caminho exato pode variar dependendo da sua configuração. Você pode encontrar o caminho do arquivo de log verificando o SlurmdLogFile parâmetro no arquivo de configuração do Slurm (geralmente /etc/slurm/slurm.conf).

Para acessar os arquivos de log, você pode entrar no controlador ou nos nós de computação via SSH e navegar até os caminhos de arquivo de log apropriados. Se precisar alterar os caminhos do arquivo de log, você pode modificar os SlurmctldLogFile parâmetros e SlurmdLogFile no arquivo de configuração do Slurm.

Como faço para enviar vagas? (Slurm)

Para enviar trabalhos para o Azure CycleCloud ao usar o Slurm como o agendador de tarefas, siga estas etapas:

  1. Entre na sua instância do Azure CycleCloud.
  2. Identifique o cluster para o qual você deseja enviar o trabalho. Você pode exibir a lista de seus clusters no painel principal.
  3. Conecte-se ao nó principal (controlador) do cluster Slurm usando SSH.
  4. Uma vez conectado ao nó principal, crie um script de trabalho Slurm. O script de trabalho é um shell script simples que contém diretivas Slurm e os comandos que você deseja executar em seu trabalho.
  5. Envie o trabalho usando o sbatch comando.
  6. Monitore o status do seu trabalho usando comandos do Slurm como squeue, sinfoou sacct.
  7. Quando o trabalho estiver concluído, você poderá visualizar a saída no arquivo de saída especificado (neste exemplo, my_job_output.txt).