Przenoszenie danych do usługi Azure Blob Storage
Jeśli przepływ pracy obejmuje przenoszenie danych do usługi Azure Blob Storage, upewnij się, że używasz wydajnej strategii. Należy utworzyć pamięć podręczną, dodać kontener obiektów blob jako miejsce docelowe magazynu, a następnie skopiować dane przy użyciu usługi Azure HPC Cache.
W tym artykule wyjaśniono najlepsze sposoby przenoszenia danych do magazynu obiektów blob do użycia z usługą Azure HPC Cache.
Napiwek
Ten artykuł nie dotyczy magazynu obiektów blob zainstalowanych w systemie plików NFS (cele magazynu ADLS-NFS). Możesz użyć dowolnej metody opartej na systemie plików NFS, aby wypełnić kontener obiektów blob adLS-NFS przed lub po dodaniu go do pamięci podręcznej HPC Cache. Przeczytaj artykuł Wstępne ładowanie danych przy użyciu protokołu NFS, aby dowiedzieć się więcej.
Należy pamiętać o następujących faktach:
Usługa Azure HPC Cache używa wyspecjalizowanego formatu magazynu do organizowania danych w magazynie obiektów blob. Dlatego obiekt docelowy magazynu obiektów blob musi być nowym, pustym kontenerem lub kontenerem obiektów blob, który był wcześniej używany na potrzeby danych usługi Azure HPC Cache.
Kopiowanie danych za pośrednictwem usługi Azure HPC Cache do docelowego magazynu zaplecza jest bardziej wydajne w przypadku korzystania z wielu klientów i operacji równoległych. Proste polecenie kopiowania z jednego klienta będzie powoli przenosić dane.
Strategie opisane w tym artykule działają na potrzeby wypełniania pustego kontenera obiektów blob lub dodawania plików do wcześniej używanego miejsca docelowego magazynu.
Kopiowanie danych za pośrednictwem usługi Azure HPC Cache
Usługa Azure HPC Cache została zaprojektowana tak, aby obsługiwała wielu klientów jednocześnie, dlatego w celu kopiowania danych za pośrednictwem pamięci podręcznej należy używać równoległych zapisów z wielu klientów.
Polecenia cp
lub copy
, których zwykle używasz do przesyłania danych z jednego systemu magazynu do innego, to procesy jednowątkowe, które kopiują tylko jeden plik naraz. Oznacza to, że serwer plików pozyskiwa tylko jeden plik naraz — co jest stratą zasobów pamięci podręcznej.
W tej sekcji opisano strategie tworzenia systemu kopiowania plików wielowątkowego obejmującego wiele klientów w celu przenoszenia danych do magazynu obiektów blob za pomocą usługi Azure HPC Cache. Wyjaśniono w nim pojęcia dotyczące transferu plików i punkty decyzyjne, które mogą służyć do wydajnego kopiowania danych przy użyciu wielu klientów i prostych poleceń kopiowania.
Wyjaśnia również niektóre narzędzia, które mogą pomóc. Narzędzie msrsync
może służyć do częściowego automatyzowania procesu dzielenia zestawu danych na zasobniki i używania poleceń rsync. Skrypt parallelcp
jest innym narzędziem, które odczytuje katalog źródłowy i automatycznie wystawia polecenia kopiowania.
Planowanie strategiczne
Podczas tworzenia strategii kopiowania danych równolegle należy zrozumieć kompromisy w zakresie rozmiaru pliku, liczby plików i głębokości katalogu.
- Gdy pliki są małe, metryka zainteresowania to pliki na sekundę.
- Gdy pliki są duże (10MiBi lub większe), metryka zainteresowania jest bajtami na sekundę.
Każdy proces kopiowania ma szybkość przepływności i szybkość transferu plików, która może być mierzona według czasu długości polecenia kopiowania i uwzględniania rozmiaru pliku i liczby plików. Wyjaśnienie sposobu mierzenia stawek wykracza poza zakres tego dokumentu, ale należy zrozumieć, czy będziesz radzić sobie z małymi lub dużymi plikami.
Strategie pozyskiwania danych równoległych za pomocą usługi Azure HPC Cache obejmują:
Ręczne kopiowanie — można ręcznie utworzyć kopię wielowątkową na kliencie, uruchamiając jednocześnie więcej niż jedno polecenie kopiowania w tle względem wstępnie zdefiniowanych zestawów plików lub ścieżek. Aby uzyskać szczegółowe informacje, przeczytaj temat Pozyskiwanie danych usługi Azure HPC Cache — metoda ręcznego kopiowania.
Częściowo zautomatyzowane kopiowanie za
msrsync
-msrsync
pomocą polecenia to narzędzie otoki, które uruchamia wiele procesów równoległych.rsync
Aby uzyskać szczegółowe informacje, zapoznaj się z tematem Pozyskiwanie danych usługi Azure HPC Cache — metoda msrsync.Kopiowanie
parallelcp
skryptów za pomocą — dowiedz się, jak utworzyć i uruchomić równoległy skrypt kopiowania w pozyskiwaniu danych usługi Azure HPC Cache — równoległa metoda skryptu kopiowania.
Następne kroki
Po skonfigurowaniu magazynu dowiedz się, jak klienci mogą zainstalować pamięć podręczną.