Provádění běžných postupů pro řešení potíží

Dokončeno

Na konci této lekce byste měli být schopni popsat postupy pro běžné kontroly provozního stavu a některé běžné problémy, se kterými se můžete setkat.

Jaké důvody můžou způsobit, že se úloha odeslaná do Azure Cyclecloudu zablokuje ve stavu čekání (PD)?

Úloha ve stavu PD (čeká na vyřízení) označuje, že i když byla úloha odeslána, Cyclecloud zatím nenalezl žádné dostupné uzly ke spuštění úlohy. Příčinou může být mnoho důvodů, jako jsou nedostatečné prostředky, nesprávné specifikace úloh nebo selhání uzlů.

Při konfiguraci skriptu úlohy musíte zajistit, aby požadované prostředky byly v mezích clusteru. Důvodem je to, že plánovač úlohu po přidělení času zastaví, a to i v případě, že úloha vyžaduje více času nebo se úloha zablokuje ve frontě navždy, pokud úloha vyžaduje více paměti, než je v systému k dispozici.

Jaké kroky můžu provést k určení, jestli byly uzly požadovány pro úlohu Azure Cyclecloud?

Stav úlohy můžete zkontrolovat pomocí příkazu Slurm squeue .

Jaké je umístění protokolů Slurm pro uzly nebo plánovače? (Slurm)

Umístění protokolů Slurm pro uzly a plánovače v Azure CycleCloudu závisí na konfiguraci clusteru Slurm. Ve výchozím nastavení jsou protokoly uložené v následujících umístěních:

Protokoly kontroleru Slurm jsou obvykle uložené v /var/log/slurm/slurmctld.log uzlu kontroleru. Přesná cesta se může lišit v závislosti na vaší konfiguraci. Cestu k souboru protokolu najdete tak, že v konfiguračním souboru Slurm (obvykle/etc/slurm/slurm.conf) zkontrolujete SlurmctldLogFile parametr.

Protokoly výpočetních uzlů Slurm jsou obvykle uložené na /var/log/slurm/slurmd.log každém výpočetním uzlu. Přesná cesta se může lišit v závislosti na vaší konfiguraci. Cestu k souboru protokolu najdete tak, že v konfiguračním souboru Slurm (obvykle/etc/slurm/slurm.conf) zkontrolujete SlurmdLogFile parametr.

Pokud chcete získat přístup k souborům protokolu, můžete se přihlásit k řadiči nebo výpočetním uzlům přes SSH a přejít na příslušné cesty k souborům protokolu. Pokud potřebujete změnit cesty k souborům protokolu, můžete upravit SlurmctldLogFile parametry v SlurmdLogFile konfiguračním souboru Slurm.

Návody odesílat úlohy? (Slurm)

Pokud chcete odesílat úlohy do Azure CycleCloudu při použití slurm jako plánovače úloh, postupujte takto:

  1. Přihlaste se k instanci Azure CycleCloudu.
  2. Identifikujte cluster, do kterého chcete úlohu odeslat. Seznam clusterů můžete zobrazit na hlavním řídicím panelu.
  3. Připojte se k hlavnímu uzlu (kontroleru) clusteru Slurm pomocí SSH.
  4. Po připojení k hlavnímu uzlu vytvořte skript úlohy Slurm. Skript úlohy je jednoduchý skript prostředí, který obsahuje direktivy Slurm a příkazy, které chcete spustit ve své úloze.
  5. Odešlete úlohu pomocí sbatch příkazu.
  6. Monitorování stavu úlohy pomocí příkazů Slurm, jako squeueje , sinfonebo sacct.
  7. Po dokončení úlohy můžete zobrazit výstup v zadaném výstupním souboru (v tomto příkladu my_job_output.txt).