Utföra vanliga felsökningsprocedurer

Slutförd

I slutet av den här lektionen bör du kunna beskriva procedurer för vanliga driftstatuskontroller och några vanliga problem som du kan stöta på.

Vilka orsaker kan göra att jobbet jag skickade till Azure Cyclecloud fastnar i det väntande tillståndet (PD) ?

Ett jobb i pd-tillståndet (väntande) anger att även om ett jobb har skickats har Cyclecloud ännu inte hittat några tillgängliga noder för att köra jobbet. Detta kan bero på många orsaker, till exempel otillräckliga resurser, felaktiga jobbspecifikationer eller nodfel.

När du konfigurerar ett jobbskript måste du se till att de begärda resurserna ligger inom klustrets gränser. Det beror på att schemaläggaren dödar jobbet när den tilldelade tiden är slut, även om jobbet kräver mer tid eller om jobbet fastnar i kön för alltid om jobbet kräver mer minne än vad som är tillgängligt i systemet.

Vilka steg kan jag vidta för att avgöra om noder har begärts för mitt Azure Cyclecloud-jobb?

Du kan använda Slurm-kommandot squeue för att kontrollera jobbstatusen.

Vad är platsen för Slurm-loggar för noder/schemaläggare? (Slurm)

I Azure CycleCloud beror platsen för Slurm-loggar för noder och schemaläggare på din Slurm-klusterkonfiguration. Som standard lagras loggarna på följande platser:

Slurm-kontrollantloggarna lagras vanligtvis i /var/log/slurm/slurmctld.log på styrenhetsnoden. Den exakta sökvägen kan variera beroende på din konfiguration. Du hittar loggfilens sökväg genom att kontrollera parametern SlurmctldLogFile i Slurm-konfigurationsfilen (vanligtvis /etc/slurm/slurm.conf).

Slurm-beräkningsnodloggarna lagras vanligtvis i /var/log/slurm/slurmd.log på varje beräkningsnod. Den exakta sökvägen kan variera beroende på din konfiguration. Du hittar loggfilens sökväg genom att kontrollera parametern SlurmdLogFile i Slurm-konfigurationsfilen (vanligtvis /etc/slurm/slurm.conf).

För att komma åt loggfilerna kan du logga in på kontrollanten eller beräkningsnoderna via SSH och navigera till lämpliga loggfilsökvägar. Om du behöver ändra sökvägarna för loggfilen kan du ändra parametrarna SlurmctldLogFile och SlurmdLogFile i Slurm-konfigurationsfilen.

Hur gör jag för att skicka jobb? (Slurm)

Följ dessa steg för att skicka jobb till Azure CycleCloud när du använder Slurm som jobbschemaläggare:

  1. Logga in på din Azure CycleCloud-instans.
  2. Identifiera klustret som du vill skicka jobbet till. Du kan visa listan över dina kluster på huvudinstrumentpanelen.
  3. Anslut till Slurm-klustrets huvudnod (kontrollant) med hjälp av SSH.
  4. När du är ansluten till huvudnoden skapar du ett Slurm-jobbskript. Jobbskriptet är ett enkelt gränssnittsskript som innehåller Slurm-direktiv och de kommandon som du vill köra i jobbet.
  5. Skicka jobbet med kommandot sbatch .
  6. Övervaka jobbets status med hjälp av Slurm-kommandon som squeue, sinfoeller sacct.
  7. När jobbet är klart kan du visa utdata i den angivna utdatafilen (i det här exemplet my_job_output.txt).