Azure HPC Cache 資料內嵌 - msrsync 方法
本文提供詳細指示,可讓您使用 msrsync
公用程式將資料複製到 Azure Blob 儲存體容器,以搭配 Azure HPC Cache 使用。
若要深入了解如何將資料移至 Azure HPC Cache 的 Blob 儲存體,請參閱將資料移至 Azure Blob 儲存體。
您可以使用 msrsync
工具,將資料移至 Azure HPC Cache 的後端儲存體目標。 此工具的設計目的是要藉由執行多個平行的 rsync
處理序,將頻寬使用情況最佳化。 您可以從 GitHub 取得它,網址為 https://github.com/jbd/msrsync。
msrsync
會將來源目錄分解成個別的「貯體」,然後在每個貯體上執行個別的 rsync
處理序。
使用四核心 VM 的初步測試在使用 64 個處理序時所顯示的效率最佳。 請使用 msrsync
選項 -p
將處理序數目設定為 64。
請注意,msrsync
只能在本機磁碟區寫入和寫出。 工作站的來源和目的地必須是可存取的本機掛接,以便用來發出命令。
請遵循下列指示,使用 msrsync
搭配 Azure HPC Cache 來填入 Azure Blob 儲存體:
安裝
msrsync
及其必要條件 (rsync
和 Python 2.6 或更新版本)決定要複製的檔案和目錄總數。
例如,使用公用程式
prime.py
搭配prime.py --directory /path/to/some/directory
引數 (可藉由下載 https://github.com/Azure/Avere/blob/main/src/clientapps/dataingestor/prime.py 來取得)。如果不使用
prime.py
,您可以依照以下方式,使用 GNUfind
工具來計算項目數:find <path> -type f |wc -l # (counts files) find <path> -type d |wc -l # (counts directories) find <path> |wc -l # (counts both)
將項目數除以 64 以決定每一處理序的項目數。 當您執行命令時,請將此數目與
-f
選項搭配使用來設定貯體的大小。發佈
msrsync
命令來複製檔案:msrsync -P --stats -p64 -f<ITEMS_DIV_64> --rsync "-ahv --inplace" <SOURCE_PATH> <DESTINATION_PATH>
例如,此命令的設計目的是要以 64 個處理序將 11,000 個檔案從 /test/source-repository 移至 /mnt/hpccache/repository:
mrsync -P --stats -p64 -f170 --rsync "-ahv --inplace" /test/source-repository/ /mnt/hpccache/repository