Azure HPC Cache-gegevensopname - msrsync-methode
In dit artikel vindt u gedetailleerde instructies voor het gebruik van het hulpprogramma voor het msrsync
kopiëren van gegevens naar een Azure Blob Storage-container voor gebruik met Azure HPC Cache.
Lees Gegevens verplaatsen naar Azure Blob Storage voor meer informatie over het verplaatsen van gegevens naar Blob Storage voor uw Azure HPC Cache.
Het msrsync
hulpprogramma kan worden gebruikt om gegevens te verplaatsen naar een back-endopslagdoel voor de Azure HPC Cache. Dit hulpprogramma is ontworpen om het bandbreedtegebruik te optimaliseren door meerdere parallelle rsync
processen uit te voeren. Het is beschikbaar via GitHub op https://github.com/jbd/msrsync.
msrsync
breekt de bronmap op in afzonderlijke buckets en voert vervolgens afzonderlijke rsync
processen uit op elke bucket.
Voorlopige tests met behulp van een VM met vier kernen toonden de beste efficiëntie bij het gebruik van 64 processen. Gebruik de msrsync
optie -p
om het aantal processen in te stellen op 64.
Houd er rekening mee dat msrsync
u alleen naar en van lokale volumes kunt schrijven. De bron en het doel moeten toegankelijk zijn als lokale koppeling op het werkstation dat wordt gebruikt om de opdracht uit te voeren.
Volg deze instructies om msrsync
Azure Blob Storage te vullen met Azure HPC Cache:
Installeren
msrsync
en de bijbehorende vereisten (rsync
en Python 2.6 of hoger)Bepaal het totale aantal bestanden en mappen dat moet worden gekopieerd.
Gebruik bijvoorbeeld het hulpprogramma
prime.py
met argumentenprime.py --directory /path/to/some/directory
(beschikbaar door te https://github.com/Azure/Avere/blob/main/src/clientapps/dataingestor/prime.pydownloaden).Als u dit niet gebruikt
prime.py
, kunt u het aantal items als volgt berekenen met het GNU-hulpprogrammafind
:find <path> -type f |wc -l # (counts files) find <path> -type d |wc -l # (counts directories) find <path> |wc -l # (counts both)
Deel het aantal items door 64 om het aantal items per proces te bepalen. Gebruik dit nummer met de
-f
optie om de grootte van de buckets in te stellen wanneer u de opdracht uitvoert.Geef de
msrsync
opdracht om bestanden te kopiëren:msrsync -P --stats -p64 -f<ITEMS_DIV_64> --rsync "-ahv --inplace" <SOURCE_PATH> <DESTINATION_PATH>
Deze opdracht is bijvoorbeeld ontworpen voor het verplaatsen van 11.000 bestanden in 64 processen van /test/source-repository naar /mnt/hpccache/repository:
mrsync -P --stats -p64 -f170 --rsync "-ahv --inplace" /test/source-repository/ /mnt/hpccache/repository