Przeprowadzanie typowych procedur rozwiązywania problemów
Po zakończeniu tej lekcji powinno być możliwe opisanie procedur typowych kontroli stanu operacyjnego i niektórych typowych problemów, które mogą wystąpić.
Jakie przyczyny mogą spowodować zablokowanie zadania przesłanego do usługi Azure Cyclecloud w stanie oczekiwania (PD)?
Zadanie w stanie PD (oczekiwanie) wskazuje, że chociaż zadanie zostało przesłane, usługa Cyclecloud nie znalazła jeszcze żadnych dostępnych węzłów do uruchomienia zadania. Może to być spowodowane wieloma przyczynami, takimi jak niewystarczające zasoby, nieprawidłowe specyfikacje zadań lub błędy węzła.
Podczas konfigurowania skryptu zadania należy upewnić się, że żądane zasoby znajdują się w granicach klastra. Dzieje się tak, ponieważ harmonogram zabija zadanie po upływie przydzielonego czasu, nawet jeśli zadanie będzie wymagać więcej czasu lub zadanie zostanie zablokowane w kolejce na zawsze, jeśli zadanie wymaga więcej pamięci niż to, co jest dostępne w systemie.
Jakie kroki można wykonać, aby określić, czy węzły zostały żądane dla zadania usługi Azure Cyclecloud?
Aby sprawdzić stan zadania, możesz użyć polecenia Slurm squeue
.
Jaka jest lokalizacja dzienników slurm dla węzłów/harmonogramów? (Slurm)
W usłudze Azure CycleCloud lokalizacja dzienników slurm dla węzłów i harmonogramów zależy od konfiguracji klastra Slurm. Domyślnie dzienniki są przechowywane w następujących lokalizacjach:
Dzienniki kontrolera Slurm są zwykle przechowywane w węźle /var/log/slurm/slurmctld.log
kontrolera. Dokładna ścieżka może się różnić w zależności od konfiguracji. Ścieżkę pliku dziennika można znaleźć, sprawdzając SlurmctldLogFile
parametr w pliku konfiguracji Slurm (zazwyczaj /etc/slurm/slurm.conf
).
Dzienniki węzłów obliczeniowych Slurm są zwykle przechowywane w każdym węźle /var/log/slurm/slurmd.log
obliczeniowym. Dokładna ścieżka może się różnić w zależności od konfiguracji. Ścieżkę pliku dziennika można znaleźć, sprawdzając SlurmdLogFile
parametr w pliku konfiguracji Slurm (zazwyczaj /etc/slurm/slurm.conf
).
Aby uzyskać dostęp do plików dziennika, możesz zalogować się do kontrolera lub węzłów obliczeniowych za pośrednictwem protokołu SSH i przejść do odpowiednich ścieżek plików dziennika. Jeśli musisz zmienić ścieżki plików dziennika, możesz zmodyfikować SlurmctldLogFile
parametry i SlurmdLogFile
w pliku konfiguracji Slurm.
Jak mogę przesłać zadania? (Slurm)
Aby przesłać zadania do usługi Azure CycleCloud podczas korzystania z narzędzia Slurm jako harmonogramu zadań, wykonaj następujące kroki:
- Zaloguj się do wystąpienia usługi Azure CycleCloud.
- Zidentyfikuj klaster, do którego chcesz przesłać zadanie. Listę klastrów można wyświetlić na głównym pulpicie nawigacyjnym.
- Połącz się z węzłem głównym klastra Slurm (kontrolerem) przy użyciu protokołu SSH.
- Po nawiązaniu połączenia z węzłem głównym utwórz skrypt zadania Slurm. Skrypt zadania to prosty skrypt powłoki, który zawiera dyrektywy Slurm i polecenia, które chcesz wykonać w zadaniu.
- Prześlij zadanie przy użyciu
sbatch
polecenia . - Monitoruj stan zadania przy użyciu poleceń Slurm, takich jak
squeue
,sinfo
lubsacct
. - Po zakończeniu zadania można wyświetlić dane wyjściowe w określonym pliku wyjściowym (w tym przykładzie
my_job_output.txt
).