Migrowanie lokalnych danych hadoop do usługi Azure Data Lake Storage za pomocą usługi WANdisco LiveData Platform for Azure
Platforma WANdisco LiveData dla platformy Azure migruje petabajty lokalnych danych hadoop do systemów plików usługi Azure Data Lake Storage bez przerywania operacji danych lub przestoju. Ciągłe kontrole platformy uniemożliwiają utratę danych przy zachowaniu ich spójności na obu końcach transferu, nawet gdy zostaną one poddane modyfikacji.
Platforma składa się z dwóch usług. Usługa LiveData Migrator dla platformy Azure migruje aktywnie używane dane ze środowisk lokalnych do usługi Azure Storage, a platforma LiveData Plane dla platformy Azure gwarantuje, że wszystkie zmodyfikowane lub pozyskane dane są stale replikowane.
Zarządzanie obydwoma usługami przy użyciu witryny Azure Portal i interfejsu wiersza polecenia platformy Azure. Każda usługa jest zgodna z tym samym mierzonym modelem rozliczeniowym płatności zgodnie z rzeczywistym użyciem co wszystkie inne usługi platformy Azure: użycie danych na platformie LiveData dla platformy Azure jest wyświetlane na miesięcznym rachunku za korzystanie z platformy Azure, co zapewni metryki użycia.
W przeciwieństwie do migrowania danych w trybie offline przez kopiowanie informacji statycznych do usługi Azure Data Box lub przy użyciu narzędzi hadoop, takich jak DistCp, można zachować pełną obsługę systemów biznesowych podczas migracji online za pomocą usługi WANdisco LiveData dla platformy Azure. Zapewnij działanie środowisk danych big data nawet podczas przenoszenia ich danych na platformę Azure.
Najważniejsze zalety platformy WANdisco LiveData platform dla platformy Azure
Platforma WANdisco LiveData platform dla aparatu konsensusu z obsługą sieci rozległej platformy Azure osiąga spójność danych i przeprowadza replikację danych w czasie rzeczywistym na dużą skalę. Aby uzyskać więcej informacji, zobacz następujący film wideo:
Najważniejsze zalety platformy obejmują następujące elementy:
Dokładność danych: kompleksowa weryfikacja danych zapobiega utracie danych i zapewnia, że przesyłane dane są odpowiednie do użycia.
Spójność danych: zachowaj automatyczne spójność woluminów danych między środowiskami, nawet gdy przechodzą one ciągłe zmiany.
Wydajność danych: ciągłe przesyłanie dużych ilości danych z pełną kontrolą zużycia przepustowości.
Eliminacja przestojów: bezpłatne tworzenie, modyfikowanie, odczytywanie i usuwanie danych z innymi aplikacjami podczas migracji bez konieczności zakłócania operacji biznesowych podczas transferu danych na platformę Azure. Kontynuuj obsługę aplikacji, infrastruktury analitycznej, pozyskiwania zadań i innego przetwarzania.
Proste użycie: użyj integracji platformy Azure, aby utworzyć, skonfigurować, zaplanować i śledzić postęp zautomatyzowanych migracji. Ponadto skonfiguruj selektywną replikację danych, metadane programu Hive, zabezpieczenia danych i poufność zgodnie z potrzebami.
Najważniejsze funkcje platformy WANdisco LiveData platform dla platformy Azure
Najważniejsze funkcje platformy obejmują następujące elementy:
Migracja metadanych: oprócz danych systemu plików HDFS przeprowadź migrację metadanych (z programu Hive i innych magazynów) za pomocą rozwiązania LiveData Migrator dla platformy Azure.
Zaplanowany transfer: użyj narzędzia LiveData Migrator dla platformy Azure, aby kontrolować i automatyzować czas inicjowania transferu danych, eliminując konieczność ręcznego migrowania zmian do danych.
Kerberos: LiveData Migrator dla klastrów kerberyzowanych pomoc techniczna platformy Azure.
Szablony wykluczeń: utwórz reguły w usłudze LiveData Migrator dla platformy Azure, aby zapobiec migrowaniu niektórych rozmiarów plików lub nazw plików (zdefiniowanych przy użyciu wzorców globu) do docelowego magazynu. Utwórz szablony wykluczeń w witrynie Azure Portal lub przy użyciu interfejsu wiersza polecenia i zastosuj je do dowolnej liczby migracji.
Mapowania ścieżek: zdefiniuj alternatywne ścieżki docelowe dla określonych docelowych systemów plików, które automatycznie przenoszą przesyłane dane do określonych katalogów.
Zarządzanie przepustowością: skonfiguruj maksymalną przepustowość sieci LiveData Migrator dla platformy Azure, aby zapobiec nadmiernemu użyciu przepustowości.
Wykluczenia: zdefiniuj zapytania szablonu, które uniemożliwiają migrację plików i katalogów spełniających kryteria, co pozwala na selektywne migrowanie danych z systemu źródłowego.
Metryki: wyświetl szczegółowe informacje o transferze danych w usłudze LiveData Migrator dla platformy Azure, takie jak pliki przesyłane w czasie, wykluczone ścieżki, elementy, których nie można przenieść i nie tylko.
Szybsze migrowanie danych big data bez ryzyka
Pierwsza usługa zawarta w usłudze WANdisco LiveData Platform for Azure to LiveData Migrator for Azure, która migruje dane ze środowisk lokalnych do usługi Azure Storage. Po wdrożeniu rozwiązania LiveData Migrator w lokalnym klastrze Hadoop automatycznie utworzy najlepszą konfigurację systemu plików. W tym miejscu podaj szczegóły protokołu Kerberos dla systemu. Narzędzie LiveData Migrator dla platformy Azure będzie gotowe do migracji danych do usługi Azure Storage.
Przed rozpoczęciem pracy z rozwiązaniem LiveData Migrator dla platformy Azure zapoznaj się z tymi wymaganiami wstępnymi.
Aby przeprowadzić migrację:
W interfejsie wiersza polecenia platformy Azure:
- Zarejestruj się w dostawcy zasobów WANdisco w interfejsie wiersza polecenia platformy Azure, uruchamiając polecenie
az provider register --namespace Wandisco.Fusion --consent-to-permissions
. - Zaakceptuj taryfowe warunki rozliczeniowe platformy LiveData, uruchamiając polecenie
az vm image terms accept --offer ldma --plan metered-v1 --publisher Wandisco --subscription <subscriptionID>
.
- Zarejestruj się w dostawcy zasobów WANdisco w interfejsie wiersza polecenia platformy Azure, uruchamiając polecenie
Wdróż wystąpienie Usługi LiveData Migrator z witryny Azure Portal w lokalnym klastrze hadoop. (Nie musisz wprowadzać zmian ani ponownie uruchamiać klastra).
Uwaga
Usługa WANdisco LiveData Migrator dla platformy Azure udostępnia opcję utworzenia klastra testowego usługi Hadoop.
Skonfiguruj szczegóły protokołu Kerberos, jeśli ma to zastosowanie.
Zdefiniuj docelowe konto magazynu z obsługą usługi Azure Data Lake Storage.
Zdefiniuj lokalizację danych, które chcesz zmigrować, na przykład:
/user/hive/warehouse
.Rozpocznij migrację.
Monitoruj postęp migracji za pomocą standardowych narzędzi platformy Azure, w tym interfejsu wiersza polecenia platformy Azure i witryny Azure Portal.
Dwukierunkowe replikowanie danych w ramach aktywnej zmiany za pomocą płaszczyzny LiveData dla platformy Azure
Druga usługa zawarta na platformie LiveData to LiveData Plane for Azure. LiveData Plane używa aparatu koordynacji WANdisco, aby zapewnić spójność danych w wielu lokalnych klastrach Hadoop i usłudze Azure Storage, inteligentnie stosując zmiany w danych we wszystkich systemach, usuwając ryzyko konfliktów danych w różnych punktach użycia.
Po początkowej migracji zachowaj spójność danych z płaszczyzną LiveData dla platformy Azure:
Wdróż płaszczyznę LiveData dla platformy Azure lokalnie i na platformie Azure, począwszy od witryny Azure Portal. Nie są wymagane żadne zmiany aplikacji.
Skonfiguruj reguły replikacji, które obejmują lokalizacje danych, które mają być spójne, na przykład:
/user/contoso/sales/region/WA
.Uruchamiaj aplikacje, które uzyskują dostęp do danych w obu lokalizacjach i modyfikują je zgodnie z potrzebami.
Płaszczyzna LiveData dla platformy Azure spójnie replikuje zmiany danych we wszystkich środowiskach bez znaczącego wpływu na działanie klastra lub wydajność aplikacji.
Wersja próbna lub wersja próbna
Na stronie LiveData Platform for Azure Marketplace dostępne są dwie opcje:
Przycisk Pobierz teraz uruchamia usługę w ramach subskrypcji. W tym miejscu możesz użyć własnego klastra Usługi Hadoop lub klastra wersji próbnej usługi WANdisco.
Wybierz pozycję Test Drive (Test Drive ), aby przetestować rozwiązanie LiveData Migrator dla platformy Azure w środowisku, które jest wstępnie skonfigurowane i hostowane dla Ciebie. Dzięki temu możesz wypróbować usługę LiveData Migrator dla platformy Azure przed dodaniem jej do subskrypcji bez żadnych kosztów i ryzyka dla danych.