Trafiköverväganden för filsystem

Slutförd

Mål-IOPS-, dataflödes- och svarstidsnummer är viktiga värden. Men för att optimera prestandan måste du också bestämma hur dina HPC-arbetsbelastningar interagerar med filsystemet. Nästa steg är att kvantifiera trafikskalan och mixen som filsystemet behöver stöd för.

Överväganden för trafikmix

Traffic Mix avser sammansättningen av HPC-trafikbelastningen, i termer av:

  • Förhållandet mellan lästrafik och skrivtrafik. (Till exempel 100% läsa, 50% läsa och 50% skriva, 100% skriva.)
  • Slumpmässig kontra sekventiell läsning/skrivning.
  • Kontrollpunkter och ögonblicksbilder.
  • Samtidighet.
  • Filkvantitet och storlek.

I resten av den här lektionen tittar vi på hur den här blandningen av trafiktyper påverkar dina lagringsalternativ.

Läs trafik jämfört med skrivtrafik jämfört med skapa/ta bort

Läs- och skrivåtgärder förbrukar IOPS lika mycket. Men det filsystem du väljer kan använda hög tillgänglighet för inkommande skrivtrafik, vilket leder till ett långsammare men motståndskraftigt skrivgenomflöde.

Prestanda kan påverkas om HPC-arbetsbelastningen utför ett stort antal metadataintensiva åtgärder. Till exempel att skapa filer, byta namn på katalogstrukturer eller ta bort filer. Att skapa en fil kan kräva flera operationer. (Kontrollera om filen finns, skapa filhandtaget, uppdatera katalogposten och så vidare.)

Din HPC-arbetsbelastning kan till stor del fokusera på datatransformering, så mängden skrivtrafik kan vara betydande. I så fall vill du prioritera optimering av skrivprestanda.

Slumpmässig kontra sekventiell trafik

Programåtkomst styr den typ av läsning och skrivning av trafikmönster som din arbetsbelastning kan kräva.

HPC-arbetsbelastningar kan vara mycket parallella, där många datorer begär samma data från ett delat filsystem. Eller så kan de vara unika och serialiserade, med unika och slumpmässiga dataåtkomstmönster. Sekventiella trafikprestanda är större än slumpmässig trafik. Ett exempel på sekventiell trafik skulle vara inläsningen av ett binärt bibliotek eller en stor bild- eller videofil av en eller flera datorer. Ett exempel på slumpmässig trafik skulle omfatta begäranden om olika byteintervall för en enskild fil eller flera filer, i stället för att läsa en hel fil.

Kontrollpunkter och ögonblicksbilder

Arbetsbelastningar är ofta kontrollpunkter. Vid kontrollpunkter kopieras programmets tillstånd och dess data till varaktig lagring, och sedan fortsätter arbetsbelastningen. Kontrollpunkter används för att återuppta långvariga arbetsbelastningar utan att det behövs någon fullständig omstart av jobbet. Kontrollpunkter kan också användas med ögonblicksbilder. Ögonblicksbilder är skrivskyddade kopior av ditt filsystem som tas vid ett visst ögonblick. Kontrollpunkter kan betraktas som programspecifika eller programberoende, men ögonblicksbilder är relevanta på filsystemsnivå.

Både kontrollpunkter och ögonblicksbilder använder IOPS och lagring. De påverkar därför filsystemets övergripande prestanda, beroende på deras frekvens och mängden data som berörs.

Konkurrens

Antalet samtidiga klienter och trådar är en annan faktor att tänka på när du väljer ditt filsystem. Många HPC-arbetsbelastningar kräver betydande samtidighet under jobbstarten och resultatfaserna, eventuellt i hundratals eller tusentals trådar. Ett jobb kan till exempel initieras på hundra datorer med 16 kärnor, där varje kärna kör en eller två samtidiga trådar. Trådens samtidighet i det fallet kan vara var som helst från 1 600 till 3 200 trådar. Dessa trådar kan alla läsa binärfiler (bibliotek, verktygskedjor och så vidare) som krävs innan jobbet kan fortsätta. För att minimera körningstiden för jobbet måste det underliggande lagringssystemet kunna ge snabba svar på dessa läsbegäranden.

Samma jobb kan sluta kräva samtidig åtkomst. Eller så kan det kräva snabb åtkomst till mer fildata eller skriva ut mellanliggande resultat för att andra trådar i jobbet ska kunna läsa.

Antal filer och storlek

När du väljer fillagring måste du också överväga antalet och genomsnittsstorleken på filerna. En arbetsbelastning som förbrukar 2 TB data har olika prestandaegenskaper om 2 TB består av hundra 20 GB-filer i stället för 10 000 200 MB-filer. Särskilt om de 10 000 filerna är kapslade i djupa katalogstrukturer.

Vi rekommenderar att du identifierar den mest sannolika arbetsuppsättningen data. En arbetsuppsättning är det potentiella maximala antalet filer och den filstorlek som du behöver. Försök att identifiera de maximala och genomsnittliga definitionerna för arbetsuppsättningar och använd dessa maximum för att vägleda din planering.

Det är inte alltid lätt att definiera en arbetsuppsättning, särskilt för en miljö i stället för en enda HPC-arbetsbelastning. En dag kan du till exempel behöva skapa en liten simulering mot en statisk uppsättning data. Nästa dag kan du behöva skala upp för att göra en större analys med mellanliggande utdata och kontrollpunkter.