Eseguire procedure di risoluzione dei problemi comuni
Dopo aver completato questa unità, dovrebbe essere possibile descrivere le procedure per i controlli comuni dello stato operativo e alcuni problemi comuni che possono verificarsi.
Quali motivi potrebbero causare il blocco del processo inviato ad Azure Cyclecloud nello stato PD (in sospeso)?
Un processo nello stato PD (in sospeso) indica che, pur essendo stato inviato, Cyclecloud non ha ancora trovato nodi disponibili per eseguire il processo. Questo potrebbe essere dovuto a una serie di motivi, ad esempio risorse insufficienti, specifiche di processo non corrette o errori dei nodi.
Quando si configura uno script di processo, è necessario assicurarsi che le risorse richieste siano comprese nei limiti del cluster. Questo perché l'utilità di pianificazione termina il processo una volta esaurito il tempo allocato, anche se il processo richiede più tempo o richiede più memoria rispetto a quanto disponibile nel sistema.
Quali passaggi è possibile eseguire per stabilire se sono stati richiesti nodi per il processo di Azure Cyclecloud?
È possibile usare il comando Slurm squeue
per controllare lo stato del processo.
Qual è il percorso dei log Slurm per nodi/utilità di pianificazione? (Slurm)
In Azure CycleCloud il percorso dei log Slurm per nodi e utilità di pianificazione dipende dalla configurazione del cluster Slurm. Per impostazione predefinita, i log vengono archiviati nei percorsi seguenti:
I log del controller Slurm vengono in genere archiviati nel nodo del controller /var/log/slurm/slurmctld.log
. Il percorso esatto può variare a seconda della configurazione. Per trovare il percorso file di log, controllare il parametro SlurmctldLogFile
nel file di configurazione di Slurm (in genere /etc/slurm/slurm.conf
).
I log dei nodi di calcolo di Slurm vengono in genere archiviati in /var/log/slurm/slurmd.log
in ogni nodo di calcolo. Il percorso esatto può variare a seconda della configurazione. Per trovare il percorso file di log, controllare il parametro SlurmdLogFile
nel file di configurazione di Slurm (in genere /etc/slurm/slurm.conf
).
Per accedere ai file di log, è possibile eseguire l'accesso al controller o ai nodi di calcolo tramite SSH e passare ai percorsi file di log appropriati. Se necessario, per modificare i percorsi file di log, modificare i parametri SlurmctldLogFile
e SlurmdLogFile
nel file di configurazione di Slurm.
Come è possibile inviare processi? (Slurm)
Per inviare processi ad Azure CycleCloud quando si usa Slurm come utilità di pianificazione dei processi, seguire questa procedura:
- Accedere all'istanza di Azure CycleCloud.
- Identificare il cluster a cui si vuole inviare il processo. È possibile visualizzare l'elenco dei cluster nel dashboard principale.
- Connettersi al nodo head (controller) del cluster Slurm usando SSH.
- Dopo la connessione al nodo head, creare uno script di processo di Slurm. Lo script di processo è un semplice script della shell che contiene le direttive di Slurm e i comandi da eseguire nel processo.
- Inviare il processo con il comando
sbatch
. - Monitorare lo stato del processo usando i comandi Slurm, ad esempio
squeue
,sinfo
osacct
. - Al termine del processo, è possibile visualizzare l'output nel file di output specificato (in questo esempio
my_job_output.txt
).