適用於 HPC 作業的檔案存取

已完成

儲存體存取是規劃 HPC 工作負載效能的一個重要部分。 您必須確定所需的資料會在適當的時間到達 HPC 叢集機器。 您也必須確定來自那些個別機器的結果會快速儲存且可供進一步分析。

檔案可以包含各種資料,包括:

  • 非結構化資料,例如影像、文件或媒體檔案。
  • 來自各種來源的時間序列資料。
  • 價格資料 (例如,股價記錄)。
  • 用於計算分析的資產,例如基因資料、放射影像或氣象模擬。

假設資料位於您本機環境的一或多個儲存體解決方案中。 此內容中的儲存體架構包括:

  • 直接連結的磁碟。 也就是說,HPC 叢集中的每部機器都有自己的本機儲存體磁碟。
  • 網路連接儲存裝置 (NAS) 解決方案。
  • 存放區域網路 (SAN) 解決方案。

Diagram that shows three storage architectures.

分析師、作者、研究人員或科學家可能會在本機建立資料。 或者,您可能會定期從協力廠商取得資料,並儲存在您的本機儲存體解決方案中。

檔案存取類型

我們會在此課程模組中討論的一般檔案存取使用案例僅限於下列活動:

  • 在 HPC 叢集機器上載入並執行作業程式碼、程式庫和/或工具鏈。
  • 讀取作業的來源資料。 例如,每日價格資料、基因資料或衛星資料。
  • 中繼或「臨時」寫入。 某些作業需要處理初始資料,而該處理的輸出會成為下游活動的新輸入。
  • 寫出作業的結果。 此使用案例涉及將資料放置於所需位置,以供進一步取用。 例如,轉譯影片,並將轉譯的結果放置在共用磁碟區上,以供使用。

HPC 機器如何取得工作集資料?

HPC 叢集中的機器會透過直接連結的磁碟,或者透過網路匯出或共用來存取檔案。 在這兩種情況下,檔案都會顯示於本機路徑 (例如 /mnt/data) 中。

組成實際 HPC 作業的程式碼和指令碼假設檔案可在此檔案系統上存取,並使用機器的檔案存取功能來取得檔案。 例如,執行 Linux 且需要存取位於 NAS 之檔案的機器,會使用已安裝為作業系統一部分的網路檔案系統 (NFS) 通訊協定與 NFS 用戶端套件。

了解檔案中繼資料

檔案會存放實際資料 (例如,影像或文字行) 和其他稱為「中繼資料」的資訊。 此中繼資料存在於檔案資料內或目錄中。 請務必在 HPC 檔案系統效能的內容中了解此中繼資料。

中繼資料是一組描述資料屬性的值,但那不是資料的一部分。 例如,中繼資料會告知您建立與修改檔案的時間、建立檔案的人員,以及具有檔案存取權限的人員。

建立檔案時,會有中繼資料作業來配置檔案的結構並更新目錄項目。 這些作業均發生於將資料寫入至檔案之前。