共用方式為


Azure HPC Cache 資料內嵌 - msrsync 方法

本文提供詳細指示,可讓您使用 msrsync 公用程式將資料複製到 Azure Blob 儲存體容器,以搭配 Azure HPC Cache 使用。

若要深入了解如何將資料移至 Azure HPC Cache 的 Blob 儲存體,請參閱將資料移至 Azure Blob 儲存體

您可以使用 msrsync 工具,將資料移至 Azure HPC Cache 的後端儲存體目標。 此工具的設計目的是要藉由執行多個平行的 rsync 處理序,將頻寬使用情況最佳化。 您可以從 GitHub 取得它,網址為 https://github.com/jbd/msrsync

msrsync 會將來源目錄分解成個別的「貯體」,然後在每個貯體上執行個別的 rsync 處理序。

使用四核心 VM 的初步測試在使用 64 個處理序時所顯示的效率最佳。 請使用 msrsync 選項 -p 將處理序數目設定為 64。

請注意,msrsync 只能在本機磁碟區寫入和寫出。 工作站的來源和目的地必須是可存取的本機掛接,以便用來發出命令。

請遵循下列指示,使用 msrsync 搭配 Azure HPC Cache 來填入 Azure Blob 儲存體:

  1. 安裝 msrsync 及其必要條件 (rsync 和 Python 2.6 或更新版本)

  2. 決定要複製的檔案和目錄總數。

    例如,使用公用程式 prime.py 搭配 prime.py --directory /path/to/some/directory 引數 (可藉由下載 https://github.com/Azure/Avere/blob/main/src/clientapps/dataingestor/prime.py 來取得)。

    如果不使用 prime.py,您可以依照以下方式,使用 GNU find 工具來計算項目數:

    find <path> -type f |wc -l         # (counts files)
    find <path> -type d |wc -l         # (counts directories)
    find <path> |wc -l                 # (counts both)
    
  3. 將項目數除以 64 以決定每一處理序的項目數。 當您執行命令時,請將此數目與 -f 選項搭配使用來設定貯體的大小。

  4. 發佈 msrsync 命令來複製檔案:

    msrsync -P --stats -p64 -f<ITEMS_DIV_64> --rsync "-ahv --inplace" <SOURCE_PATH> <DESTINATION_PATH>
    

    例如,此命令的設計目的是要以 64 個處理序將 11,000 個檔案從 /test/source-repository 移至 /mnt/hpccache/repository:

    mrsync -P --stats -p64 -f170 --rsync "-ahv --inplace" /test/source-repository/ /mnt/hpccache/repository