檔案系統流量考量
目標 IOPS、輸送量與延遲數目都是重要的值。 但是,若要將效能最佳化,您也必須決定 HPC 工作負載與檔案系統的互動方式。 下一個步驟是將檔案系統需要支援的流量調整與混合量化。
流量混合考量
「流量混合」指的是 HPC 工作負載流量的組成,包括:
- 讀取流量與寫入流量的比率 (例如,100% 讀取、50% 讀取與 50% 寫入,100% 寫入)。
- 隨機與循序讀取/寫入的比較。
- 檢查點與快照集。
- 並行。
- 檔案數量與大小。
在此單元的其餘部分,我們會了解這個混合的流量類型如何影響您的儲存體選項。
讀取流量、寫入流量與建立/刪除的比較
讀取和寫入作業會平均取用 IOPS。 但是,您選擇的檔案系統可能會將高可用性套用到傳入的寫入流量,其會轉譯為較慢但具有復原性的寫入輸送量。
如果您的 HPC 工作負載執行大量需中繼資料的作業,效能可能會受到影響。 例如,建立檔案、重新命名目錄結構或刪除檔案。 建立檔案可能會取用數個作業 (檢查檔案是否存在、建立檔案控制代碼、更新目錄項目等)。
您的 HPC 工作負載可能大幅著重在資料轉換,因此寫入流量的數量可能很高。 在這種情況下,建議您為寫入效能的最佳化設定優先權。
隨機與循序流量的比較
應用程式存取會驅動您工作負載可能需要的讀取及寫入流量模式類型。
HPC 工作負載可能高度平行,有許多電腦要求來自共用檔案系統的相同資料。 或者,它們可能是獨特且序列化的,而且具有獨特且隨機的資料存取模式。 循序流量效能大於隨機流量。 循序流量的其中一個範例是一或多部電腦載入二進位程式庫或大型影像或影片檔。 隨機流量的其中一個範例會包括對單一檔案或多個檔案的不同位元組範圍要求,而不是讀取整個檔案。
檢查點與快照集
系統通常會對工作負載「執行檢查點檢查」。 在執行檢查點檢查期間,會將應用程式與其資料的狀態複製到永久性儲存體,然後工作負載會繼續。 執行檢查點檢查可用來繼續長時間執行的工作負載,而不需重新啟動整個作業。 執行檢查點檢查也可以搭配「快照集」使用。 快照集是在某個時間點為檔案系統建立的唯讀複本。 檢查點可視為應用程式特定或應用程式相依的,但快照集在檔案系統層級是相關的。
檢查點與快照集都會取用 IOPS 與儲存體。 因此,根據其頻率與涉及的資料量而定,它們會影響檔案系統的整體效能。
並行
當您選取檔案系統時,同時用戶端和執行緒的數目是另一個要考慮的因素。 許多 HPC 工作負載在作業啟動和結果階段期間都需要大量並行,可能是數百或上千個執行緒。 例如,作業可能會在 16 核心的機器上初始化,每個核心都會操作一或兩個同時執行緒。 在這種情況下,執行緒並行可能是從 1,600 個到 3,200 個執行緒。 這些執行緒可能全都是在作業可繼續之前所需的讀取二進位檔 (程式庫、工具鏈等)。 為了將作業執行階段縮到最短,底層儲存體系統必須能夠快速回應這些讀取要求。
相同的作業可能會停止要求任何同時存取。 或者,可能需要高載存取更多檔案資料,或寫出作業中其他執行緒的中繼結果來讀取。
檔案計數與大小
當您選取檔案儲存體時,也需要考慮檔案的數目與平均大小。 如果 2 TB 包含 100 個 20 GB 的檔案而非 10,000 個 200 MB 的檔案,則取用 2 TB 資料的工作負載會有不同的效能特性。 尤其是 10,000 個檔案在深度目錄結構中形成巢狀結構時。
我們建議您識別最有可能的資料「工作集」。 工作集是您所需的可能最大檔案計數與大小。 請嘗試識別最大與平均工作集定義,並使用那些最大值來引導您的規劃。
定義工作集並不容易,尤其是針對環境而非單一 HPC 工作負載時。 例如,您某天可能需要針對靜態資料集建立小型模擬。 隔天可能需要擴大,以使用中繼輸出與執行檢查點檢查來進行較大型的分析。