Migrowanie usługi Azure Data Lake Storage z Gen1 do Gen2 przy użyciu witryny Azure Portal
W tym artykule pokazano, jak uprościć migrację przy użyciu witryny Azure Portal.
Uwaga
Usługa Azure Data Lake Storage Gen1 została wycofana. Zobacz ogłoszenie o wycofaniu tutaj. Zasoby usługi Data Lake Storage Gen1 nie są już dostępne.
Oto film wideo, który zawiera więcej informacji na ten temat.
Rozdziały:
00.37 — wprowadzenie
01:16 — Przygotowanie do migracji
07:15 — migracja kopii
17:40 — Kopiowanie i ukończenie migracji
19:43 — Ukończona migracja
33:15 — Po migracji
Przed rozpoczęciem zapoznaj się z ogólnymi wskazówkami dotyczącymi migracji z usługi Gen1 do 2. generacji w wytycznych i wzorcach migracji usługi Azure Data Lake Storage.
Twoje konto może nie kwalifikować się do migracji opartej na portalu na podstawie pewnych ograniczeń. Jeśli przycisk Migrowanie danych nie jest włączony w witrynie Azure Portal dla konta usługi Gen1, jeśli masz plan pomocy technicznej, możesz zgłosić wniosek o pomoc techniczną. Możesz również uzyskać odpowiedzi od ekspertów społeczności w witrynie Microsoft Q&A.
Uwaga
Aby ułatwić czytanie, w tym artykule użyto terminu Gen1 do odwoływania się do usługi Azure Data Lake Storage Gen1 oraz terminu Gen2, aby zapoznać się z usługą Azure Data Lake Storage Gen2.
Krok 1. Tworzenie konta magazynu z możliwościami usługi Gen2
Usługa Azure Data Lake Storage Gen2 nie jest dedykowanym kontem magazynu ani typem usługi. Jest to zestaw funkcji, które można uzyskać, włączając funkcję Hierarchiczna przestrzeń nazw konta usługi Azure Storage. Aby utworzyć konto z możliwościami usługi Gen2, zobacz Tworzenie konta magazynu do użycia z usługą Azure Data Lake Storage Gen2.
Podczas tworzenia konta upewnij się, że skonfigurować ustawienia przy użyciu następujących wartości.
Ustawienie | Wartość |
---|---|
Nazwa konta magazynu | Dowolna nazwa. Ta nazwa nie musi być zgodna z nazwą konta gen1 i może znajdować się w dowolnej wybranej subskrypcji. |
Lokalizacja | Ten sam region używany przez konto usługi Data Lake Storage Gen1 |
Replikacja | LRS lub ZRS |
Minimalna wersja protokołu TLS | 1.0 |
NFS v3 | Disabled |
Hierarchiczna przestrzeń nazw | Włączona |
Uwaga
Narzędzie do migracji w witrynie Azure Portal nie przenosi ustawień konta. W związku z tym po utworzeniu konta należy ręcznie skonfigurować ustawienia, takie jak szyfrowanie, zapory sieciowe, ochrona danych.
Ważne
Upewnij się, że używasz nowego, nowo utworzonego konta magazynu, które nie ma historii użycia. Nie należy migrować do wcześniej używanego konta ani używać konta, w którym kontenery zostały usunięte, aby konto było puste.
Krok 2. Weryfikowanie przypisań ról kontroli dostępu na podstawie ról (RBAC) platformy Azure
W przypadku usługi Gen2 upewnij się, że rola Właściciela danych obiektu blob usługi Storage została przypisana do tożsamości użytkownika usługi Microsoft Entra w zakresie konta magazynu, nadrzędnej grupy zasobów lub subskrypcji.
W przypadku usługi Gen1 upewnij się, że rola Właściciel została przypisana do tożsamości Firmy Microsoft Entra w zakresie konta Gen1, nadrzędnej grupy zasobów lub subskrypcji.
Krok 3. Migrowanie obciążeń usługi Azure Data Lake Analytics
Usługa Azure Data Lake Storage Gen2 nie obsługuje usługi Azure Data Lake Analytics. Usługa Azure Data Lake Analytics zostanie wycofana 29 lutego 2024 r. Jeśli spróbujesz użyć witryny Azure Portal do przeprowadzenia migracji konta usługi Azure Data Lake Storage Gen1 używanego na potrzeby usługi Azure Data Lake Analytics, możliwe jest, że przerwisz obciążenia usługi Azure Data Lake Analytics. Przed podjęciem próby przeprowadzenia migracji konta usługi Gen1 należy najpierw przeprowadzić migrację obciążeń usługi Azure Data Lake Analytics do usługi Azure Synapse Analytics lub innej obsługiwanej platformy obliczeniowej.
Aby uzyskać więcej informacji, zobacz Zarządzanie usługą Azure Data Lake Analytics przy użyciu witryny Azure Portal.
Krok 4. Przygotowanie konta gen1
Nazwy plików lub katalogów zawierające tylko spacje lub karty, kończące się ciągiem .
:
, lub z wieloma kolejnymi ukośnikami (//
) nie są zgodne z gen2. Przed migracją należy zmienić nazwę tych plików lub katalogów.
Aby uzyskać lepszą wydajność, rozważ opóźnienie migracji przez co najmniej dziesięć dni od czasu ostatniej operacji usuwania. Na koncie gen1 usunięte pliki stają się nietrwałe , a moduł odśmiecwania pamięci nie usunie ich trwale do siedmiu dni i potrwa kilka dodatkowych dni do przetworzenia czyszczenia. Czas potrzebny na oczyszczenie będzie zależeć od liczby plików. Wszystkie pliki, w tym pliki usunięte nietrwale, są przetwarzane podczas migracji. Jeśli zaczekasz na trwałe usunięcie usuniętych plików przez moduł odśmiecwania pamięci, czas oczekiwania może się poprawić.
Krok 5. Przeprowadzanie migracji
Przed rozpoczęciem zapoznaj się z dwiema poniższymi opcjami migracji i zdecyduj, czy skopiować dane tylko z gen1 do generacji 2 (zalecane) lub przeprowadzić pełną migrację.
Opcja 1. Kopiowanie tylko danych (zalecane). W tej opcji dane są kopiowane z gen1 do generacji 2. Podczas kopiowania danych konto gen1 staje się tylko do odczytu. Po skopiowaniu danych zarówno konta Gen1, jak i Gen2 będą dostępne. Należy jednak zaktualizować aplikacje i obciążenia obliczeniowe, aby używać nowego punktu końcowego gen2.
Opcja 2. Przeprowadzanie pełnej migracji. W tej opcji dane są kopiowane z gen1 do generacji 2. Po skopiowaniu danych cały ruch z konta Gen1 zostanie przekierowany do konta z włączoną obsługą gen2. Przekierowane żądania używają warstwy zgodności Gen1, aby przetłumaczyć wywołania interfejsu API gen1 na odpowiedniki gen2. Podczas migracji konto Gen1 staje się tylko do odczytu. Po zakończeniu migracji konto gen1 nie będzie dostępne.
Niezależnie od wybranej opcji po przeprowadzeniu migracji i sprawdzeniu, czy wszystkie obciążenia działają zgodnie z oczekiwaniami, możesz usunąć konto gen1.
Opcja 1. Kopiowanie danych z gen1 do generacji 2
Zaloguj się w witrynie Azure Portal, aby rozpocząć pracę.
Znajdź konto usługi Data Lake Storage Gen1 i wyświetl omówienie konta.
Wybierz przycisk Migruj dane .
Wybierz pozycję Kopiuj dane do nowego konta gen2.
Udziel firmie Microsoft zgody na przeprowadzenie migracji danych, zaznaczając pole wyboru. Następnie wybierz przycisk Zastosuj .
Zostanie wyświetlony pasek postępu wraz z komunikatem o stanie podrzędnym. Możesz użyć tych wskaźników, aby ocenić postęp migracji. Ponieważ czas ukończenia każdego zadania jest różny, pasek postępu nie będzie przechodzić w spójnego tempie. Na przykład pasek postępu może szybko przejść do 50 procent, ale pośmiń nieco więcej czasu, aby ukończyć pozostałe 50 procent.
Ważne
Podczas migrowania danych twoje konto gen1 staje się tylko do odczytu, a konto z włączoną obsługą usługi Gen2 jest wyłączone. Po zakończeniu migracji można odczytywać i zapisywać na obu kontach.
Migrację można zatrzymać w dowolnym momencie, wybierając przycisk Zatrzymaj migrację.
Opcja 2. Przeprowadzanie pełnej migracji
Zaloguj się w witrynie Azure Portal, aby rozpocząć pracę.
Znajdź konto usługi Data Lake Storage Gen1 i wyświetl omówienie konta.
Wybierz przycisk Migruj dane .
Wybierz pozycję Ukończ migrację do nowego konta gen2.
Udziel firmie Microsoft zgody na przeprowadzenie migracji danych, zaznaczając pole wyboru. Następnie wybierz przycisk Zastosuj .
Zostanie wyświetlony pasek postępu wraz z komunikatem o stanie podrzędnym. Możesz użyć tych wskaźników, aby ocenić postęp migracji. Ponieważ czas ukończenia każdego zadania jest różny, pasek postępu nie będzie przechodzić w spójnego tempie. Na przykład pasek postępu może szybko przejść do 50 procent, ale pośmiń nieco więcej czasu, aby ukończyć pozostałe 50 procent.
Ważne
Podczas migrowania danych twoje konto gen1 staje się tylko do odczytu, a konto z włączoną obsługą usługi Gen2 jest wyłączone.
Ponadto podczas przekierowywania identyfikatora URI 1. generacji oba konta są wyłączone.
Po zakończeniu migracji konto usługi Gen1 zostanie wyłączone. Dane na koncie Usługi Gen1 nie będą dostępne i zostaną usunięte po upływie 30 dni. Twoje konto usługi Gen2 będzie dostępne dla operacji odczytu i zapisu.
Migrację można zatrzymać w dowolnym momencie przed przekierowaniem identyfikatora URI, wybierając przycisk Zatrzymaj migrację.
Krok 6. Sprawdzanie, czy migracja została ukończona
Jeśli migracja zakończy się pomyślnie, kontener o nazwie gen1 zostanie utworzony na koncie obsługującym usługę Gen2, a wszystkie dane z konta Gen1 zostaną skopiowane do tego nowego kontenera gen1 . Aby znaleźć dane w ścieżce, która istniała w usłudze Gen1, należy dodać prefiks gen1/ do tej samej ścieżki, aby uzyskać do niej dostęp w usłudze Gen2. Na przykład ścieżka o nazwie "FolderRoot/FolderChild/FileName.csv" w usłudze Gen1 będzie dostępna w folderze "gen1/FolderRoot/FolderChild/FileName.csv" w usłudze Gen2. Nie można zmienić nazw kontenerów w usłudze Gen2, więc nie można zmienić nazwy tego kontenera gen1 w usłudze Gen2 po migracji. Jednak w razie potrzeby dane można skopiować do nowego kontenera w usłudze Gen2.
Jeśli migracja nie zakończy się pomyślnie, zostanie wyświetlony komunikat informujący o tym, że migracja została zatrzymana z powodu niezgodności. Jeśli chcesz uzyskać pomoc dotyczącą następnego kroku, skontaktuj się z pomoc techniczna firmy Microsoft. Ten komunikat może pojawić się, jeśli konto z włączoną obsługą generacji zostało wcześniej użyte lub gdy pliki i katalogi na koncie Gen1 używają niezgodnych konwencji nazewnictwa.
Przed skontaktowaniem się z pomocą techniczną upewnij się, że używasz nowego, nowo utworzonego konta magazynu, które nie ma historii użycia. Unikaj migracji do wcześniej używanego konta lub konta, w którym kontenery zostały usunięte, aby konto było puste. Na koncie usługi Gen1 upewnij się, że zmieniono nazwy plików lub katalogów, które zawierają tylko spacje lub karty, na końcu z elementem .
, zawierać :
lub zawierać wiele ukośników (//
).
Krok 7. Migrowanie obciążeń i aplikacji
Skonfiguruj usługi w obciążeniach , aby wskazywały punkt końcowy usługi Gen2. Aby uzyskać linki do artykułów, które ułatwiają konfigurowanie usługi Azure Databricks, HDInsight i innych usług platformy Azure do korzystania z usługi Gen2, zobacz Usługi platformy Azure, które obsługują usługę Azure Data Lake Storage Gen2.
Zaktualizuj aplikacje, aby korzystały z interfejsów API gen2. Zobacz następujące przewodniki:
Zaktualizuj skrypty, aby używały poleceń cmdlet programu PowerShell usługi Data Lake Storage Gen2 i poleceń interfejsu wiersza polecenia platformy Azure.
Wyszukaj odwołania identyfikatora URI zawierające ciąg
adl://
w plikach kodu lub w notesach usługi Databricks, plikach HQL apache Hive lub innych plikach używanych w ramach obciążeń. Zastąp te odwołania identyfikatorem URI w formacie Gen2 nowego konta magazynu. Na przykład: identyfikator URI 1. generacji:adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile
może stać się .abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile
Warstwa zgodności Gen1
Ta warstwa próbuje zapewnić zgodność aplikacji między gen1 i gen2 jako wygodę podczas migracji, aby aplikacje mogły nadal korzystać z interfejsów API gen1 do interakcji z danymi na koncie obsługującym usługę Gen2. Ta warstwa ma ograniczoną funkcjonalność i zaleca się zweryfikowanie obciążeń przy użyciu kont testowych, jeśli używasz tego podejścia w ramach migracji. Warstwa zgodności działa na serwerze, więc nie ma nic do zainstalowania.
Ważne
Firma Microsoft nie zaleca tej możliwości jako zamiennika migracji obciążeń i aplikacji. Obsługa warstwy zgodności Gen1 zakończy się po wycofaniu 29 lutego 2024 r. gen1.
Aby napotkać najmniejszą liczbę problemów z warstwą zgodności, upewnij się, że zestawy SDK gen1 korzystają z następujących wersji (lub wyższych).
Język | Wersja zestawu SDK |
---|---|
.NET | 2.3.9 |
Java | 1.1.21 |
Python | 0.0.51 |
Poniższa funkcja nie jest obsługiwana w warstwie zgodności.
Opcja interfejsu API ListStatus do elementu ListBefore a entry.
Interfejs API ListStatus z ponad 4000 plikami bez tokenu kontynuacji.
Kodowanie fragmentów dla operacji dołączania.
Wszystkie wywołania interfejsu API, które używają
https://management.azure.com/
jako grupy odbiorców tokenów firmy Microsoft Entra.Nazwy plików lub katalogów zawierające tylko spacje lub karty, kończące się ciągiem , zawierającym
.
:
lub z wieloma kolejnymi ukośnikami (//
).
Często zadawane pytania
Jak długo potrwa migracja?
Dane i metadane są migrowane równolegle. Łączny czas wymagany do ukończenia migracji jest równy ostatniemu zakończeniu tych dwóch procesów.
W poniższej tabeli przedstawiono przybliżoną szybkość każdego zadania przetwarzania migracji.
Uwaga
Te oszacowania czasu są przybliżone i mogą się różnić. Na przykład kopiowanie dużej liczby małych plików może spowolnić wydajność.
Przetwarzanie zadania | Szybkość |
---|---|
Kopiowanie danych | 9 TB na godzinę |
Sprawdzanie poprawności danych | 9 milionów plików lub folderów na godzinę |
Kopiowanie metadanych | 4 miliony plików lub folderów na godzinę |
Przetwarzanie metadanych | 25 milionów plików lub folderów na godzinę |
Dodatkowe przetwarzanie metadanych (opcja kopiowania danych)1 | 50 milionów plików lub folderów na godzinę |
1 Dodatkowy czas przetwarzania metadanych ma zastosowanie tylko w przypadku wybrania opcji Kopiuj dane do nowego konta gen2. Ten czas przetwarzania nie ma zastosowania, jeśli wybierzesz opcję Zakończ migrację do nowego konta gen2.
Przykład: przetwarzanie dużej ilości danych i metadanych
W tym przykładzie przyjęto założenie , że 300 TB danych i 200 milionów danych i elementów metadanych.
Zadanie | Szacowany czas |
---|---|
Kopiowanie danych | 300 TB / 9 TB = 33,33 godziny |
Weryfikacja danych | 200 milionów / 9 milionów = 22,22 godziny |
Łączny czas migracji danych | 33,33 + 22,2 = 55,55 godz. |
Kopiowanie metadanych | 200 milionów / 4 miliony = 50 godzin |
Przetwarzanie metadanych | 200 milionów / 25 milionów = 8 godzin |
Dodatkowe przetwarzanie metadanych — tylko opcja kopiowania danych | 200 milionów / 50 milionów = 4 godziny |
Całkowity czas migracji metadanych | 50 + 8 + 4 = 62 godziny |
Całkowity czas przeprowadzania migracji tylko do danych | 62 godziny |
Łączny czas przeprowadzania pełnej migracji | 62– 4 = 58 godzin |
Przykład: przetwarzanie niewielkiej ilości danych i metadanych
W tym przykładzie przyjęto założenie, że 2 TB danych i 56 tysięcy danych i elementów metadanych.
Zadanie | Szacowany czas |
---|---|
Kopiowanie danych | (2 TB / 9 TB) * 60 minut = 13,3 minut |
Weryfikacja danych | (56 000 / 9 milionów) * 3600 sekund = 22,4 sekundy |
Łączny czas migracji danych | 13,3 minuty + 22,4 sekundy = około 14 minut |
Kopiowanie metadanych | (56 000 / 4 miliony) * 3600 sekund = około 51 sekund |
Przetwarzanie metadanych | 56 000/ 25 milionów = 8 sekund |
Dodatkowe przetwarzanie metadanych — tylko opcja kopiowania danych | (56 000 / 50 milionów) * 3600 sekund = 4 sekundy |
Całkowity czas migracji metadanych | 51 + 8 + 4 = 63 sekundy |
Całkowity czas przeprowadzania migracji tylko do danych | 14 minut |
Łączny czas przeprowadzania pełnej migracji | 14 minut — 4 sekundy = 13 minut i 56 sekund (około 14 minut) |
Ile kosztuje migracja danych?
Korzystanie z narzędzia migracji opartego na portalu nie jest kosztowne, jednak opłaty będą naliczane za użycie usług Azure Data Lake Gen1 i Gen2. Podczas migracji danych będą naliczane opłaty za magazyn danych i transakcje konta gen1.
Po migracji, jeśli wybrano opcję, która kopiuje tylko dane, opłaty będą naliczane za magazyn danych i transakcje dla kont usługi Azure Data Lake Gen1 i Gen2. Aby uniknąć naliczania opłat za konto Gen1, usuń konto gen1 po zaktualizowaniu aplikacji, aby wskazywały usługę Gen2. Jeśli zdecydujesz się przeprowadzić pełną migrację, opłaty będą naliczane tylko za magazyn danych i transakcje konta z włączoną obsługą usługi Gen2.
Podczas udzielania zgody napotkano komunikat o błędzie Inicjowanie migracji nie powiodło się. Co należy zrobić dalej?
Upewnij się, że wszystkie konta usługi Azure Data lake Analytics są migrowane do usługi Azure Synapse Analytics lub innej obsługiwanej platformy obliczeniowej. Po przeprowadzeniu migracji kont usługi Azure Data Lake Analytics spróbuj ponownie wyrazić zgodę. Jeśli problem zostanie wyświetlony dalej i masz plan pomocy technicznej, możesz zgłosić wniosek o pomoc techniczną. Możesz również uzyskać odpowiedzi od ekspertów społeczności w witrynie Microsoft Q&A.
Czy po zakończeniu migracji mogę wrócić do korzystania z konta gen1?
Jeśli użyto opcji 1: Skopiuj dane z generacji 1 do generacji2 wymienionej powyżej, zarówno konta Gen1, jak i Gen2 są dostępne dla operacji odczytu i zapisu po migracji. Jeśli jednak użyto opcji 2: przeprowadzenie pełnej migracji, powrót do konta Gen1 nie jest obsługiwany. W opcji 2 po zakończeniu migracji dane na koncie Gen1 nie będą dostępne i zostaną usunięte po upływie 30 dni. Możesz nadal wyświetlać konto gen1 w witrynie Azure Portal, a gdy wszystko będzie gotowe, możesz usunąć konto usługi Gen1.
Chcę włączyć magazyn geograficznie nadmiarowy (GRS) na koncie obsługującym usługę Gen2, jak to zrobić?
Po zakończeniu migracji zarówno w opcjach kopiowania danych, jak i "Ukończ migrację", możesz przejść do przodu i zmienić opcję nadmiarowości na GRS, o ile nie planujesz korzystać z warstwy zgodności aplikacji. Zgodność aplikacji nie będzie działać na kontach korzystających z nadmiarowości GRS.
Usługa Gen1 nie ma kontenerów, a usługa Gen2 ma je — czego należy się spodziewać?
Gdy skopiujemy dane do konta z włączoną obsługą usługi Gen2, automatycznie utworzymy kontener o nazwie "Gen1". Nie można zmienić nazwy kontenerów w usłudze Gen2 i dlatego w razie potrzeby można skopiować dane po migracji do nowego kontenera w usłudze Gen2.
Co należy wziąć pod uwagę pod względem wydajności migracji?
Podczas kopiowania danych na konto z włączoną obsługą gen2 dwa czynniki, które mogą mieć wpływ na wydajność, to liczba plików i ilość posiadanych metadanych. Na przykład wiele małych plików może mieć wpływ na wydajność migracji.
Czy interfejsy API systemu plików WebHDFS będą obsługiwane po migracji konta gen2?
Interfejsy API systemu plików WebHDFS gen1 będą obsługiwane w usłudze Gen2, ale z pewnymi odchyleniami, a tylko ograniczona funkcjonalność jest obsługiwana za pośrednictwem warstwy zgodności. Klienci powinni planować wykorzystanie interfejsów API specyficznych dla generacji w celu uzyskania lepszej wydajności i funkcji.
Co się stanie z moim kontem Gen1 po dacie wycofania?
Konto staje się niedostępne. Nie będzie można wykonywać następującej liczby:
Zarządzanie kontem
Uzyskiwanie dostępu do danych na koncie
Otrzymywanie aktualizacji usługi do interfejsów API Gen1 lub Gen1, zestawów SDK lub narzędzi klienckich
Uzyskiwanie dostępu do działu pomocy technicznej 1. generacji w trybie online, przez telefon lub pocztę e-mail
Zobacz Wymagane działanie: Przełącz się do usługi Azure Data Lake Storage Gen2 do 29 lutego 2024 r.
Następne kroki
- Dowiedz się więcej o migracji ogólnie. Aby uzyskać więcej informacji, zobacz Migrate Azure Data Lake Storage from Gen1 to Gen2 (Migrowanie usługi Azure Data Lake Storage z 1. generacji do 2. generacji).