Sdílet prostřednictvím


Migrace Azure Data Lake Storage z Gen1 na Gen2 pomocí webu Azure Portal

V tomto článku se dozvíte, jak migraci zjednodušit pomocí webu Azure Portal.

Poznámka:

Azure Data Lake Storage Gen1 je teď vyřazený. Podívejte se na oznámení o vyřazení z provozu. Prostředky Data Lake Storage Gen1 už nejsou přístupné.

Tady je video, které vám o tom řekne víc.

     Kapitoly:


  • 00.37 - Úvod

  • 01:16 - Příprava na migraci

  • 07:15 – Kopírování migrace

  • 17:40 – Kopírování a dokončení migrace

  • 19:43 – Dokončení migrace

  • 33:15 – Po migraci

Než začnete, přečtěte si obecné pokyny k migraci z Gen1 na Gen2 v pokynech a vzorech migrace do Azure Data Lake Storage.

Váš účet nemusí mít nárok na migraci na základě portálu na základě určitých omezení. Pokud na webu Azure Portal pro váš účet Gen1 není povolené tlačítko Migrovat data, můžete podat žádost o podporu. Odpovědi můžete získat také od odborníků z komunity v Microsoft Q&A.

Poznámka:

Pro snadnější čtení tento článek používá termín Gen1 k odkazování na Azure Data Lake Storage Gen1 a termín Gen2 , který odkazuje na Azure Data Lake Storage Gen2.

Krok 1: Vytvoření účtu úložiště s možnostmi Gen2

Azure Data Lake Storage Gen2 není vyhrazený účet úložiště ani typ služby. Je to sada funkcí, které můžete získat povolením funkce hierarchického oboru názvů účtu úložiště Azure. Pokud chcete vytvořit účet s funkcemi Gen2, přečtěte si téma Vytvoření účtu úložiště pro použití s Azure Data Lake Storage Gen2.

Při vytváření účtu nezapomeňte nakonfigurovat nastavení s následujícími hodnotami.

Nastavení Hodnota
Název účtu úložiště Libovolný název, který chcete mít. Tento název se nemusí shodovat s názvem vašeho účtu Gen1 a může být v libovolném předplatném podle vašeho výběru.
Místo Stejná oblast používaná účtem Data Lake Storage Gen1
Replikace LRS nebo ZRS
Minimální verze protokolu TLS 1.0
NFS v3 Zakázáno
Hierarchický obor názvů Povoleno

Poznámka:

Nástroj pro migraci na webu Azure Portal nepřesune nastavení účtu. Po vytvoření účtu proto budete muset ručně nakonfigurovat nastavení, jako je šifrování, síťové brány firewall, ochrana dat.

Důležité

Ujistěte se, že používáte nový nově vytvořený účet úložiště, který nemá žádnou historii použití. Nemigrujte na dříve použitý účet nebo použijte účet, ve kterém byly odstraněny kontejnery, aby byl účet prázdný.

Krok 2: Ověření přiřazení rolí na základě role v Azure (Azure RBAC)

V případě Gen2 se ujistěte, že je role Vlastník dat objektu blob úložiště přiřazená vaší identitě uživatele Microsoft Entra v oboru účtu úložiště, nadřazené skupiny prostředků nebo předplatného.

V případě Gen1 se ujistěte, že je role Vlastník přiřazená vaší identitě Microsoft Entra v oboru účtu Gen1, nadřazené skupiny prostředků nebo předplatného.

Krok 3: Migrace úloh Azure Data Lake Analytics

Azure Data Lake Storage Gen2 nepodporuje Azure Data Lake Analytics. Azure Data Lake Analytics bude vyřazeno 29. února 2024. Pokud se pokusíte pomocí webu Azure Portal migrovat účet Azure Data Lake Storage Gen1, který se používá pro Azure Data Lake Analytics, je možné, že přerušíte úlohy Azure Data Lake Analytics. Před pokusem o migraci účtu Gen1 musíte nejprve migrovat úlohy Azure Data Lake Analytics do Azure Synapse Analytics nebo jiné podporované výpočetní platformy.

Další informace najdete v tématu Správa Azure Data Lake Analytics pomocí webu Azure Portal.

Krok 4: Příprava účtu Gen1

Názvy souborů nebo adresářů pouze s mezerami nebo tabulátory, končícími znakem , obsahujícím .:znak nebo s několika po sobě jdoucími lomítky (//) nejsou kompatibilní s Gen2. Před migrací je potřeba tyto soubory nebo adresáře přejmenovat.

Pokud chcete dosáhnout lepšího výkonu, zvažte zpoždění migrace alespoň na deset dnů od doby poslední operace odstranění. V účtu Gen1 se odstraněné soubory stanou obnovitelně odstraněné soubory a systém uvolňování paměti je neodebere trvale až do sedmi dnů a zpracování vyčištění bude trvat několik dní navíc. Doba potřebnou k vyčištění bude záviset na počtu souborů. Během migrace se zpracovávají všechny soubory, včetně obnovitelně odstraněných souborů. Pokud počkáte, dokud systém uvolňování paměti trvale neodebere odstraněné soubory, může se doba čekání zlepšit.

Krok 5: Provedení migrace

Než začnete, projděte si následující dvě možnosti migrace a rozhodněte se, jestli chcete kopírovat jenom data z Gen1 na Gen2 (doporučeno) nebo provést úplnou migraci.

Možnost 1: Kopírování pouze dat (doporučeno). V této možnosti se data zkopírují z Gen1 do Gen2. Při kopírování dat se účet Gen1 stane jen pro čtení. Po zkopírování dat budou přístupné účty Gen1 i Gen2. Musíte ale aktualizovat aplikace a výpočetní úlohy tak, aby používaly nový koncový bod Gen2.

Možnost 2: Provedení úplné migrace V této možnosti se data zkopírují z Gen1 do Gen2. Po zkopírování dat se veškerý provoz z účtu Gen1 přesměruje na účet s podporou Gen2. Přesměrované požadavky používají vrstvu kompatibility Gen1 k překladu volání rozhraní API Gen1 na ekvivalenty Gen2. Během migrace se účet Gen1 stane jen pro čtení. Po dokončení migrace nebude účet Gen1 přístupný.

Podle toho, kterou možnost zvolíte, můžete po migraci a ověření, že všechny úlohy fungují podle očekávání, odstranit účet Gen1.

Možnost 1: Kopírování dat z Gen1 do Gen2

  1. Začněte tím, že se přihlásíte k webu Azure Portal .

  2. Vyhledejte svůj účet Data Lake Storage Gen1 a zobrazte přehled účtu.

  3. Vyberte tlačítko Migrovat data.

    Tlačítko pro migraci

  4. Vyberte Kopírovat data do nového účtu Gen2.

    Možnost kopírování dat

  5. Zaškrtnutím políčka udělte Microsoftu souhlas s provedením migrace dat. Pak vyberte tlačítko Použít .

    Zaškrtávací políčko pro poskytnutí souhlasu

    Zobrazí se indikátor průběhu spolu s dílčí stavovou zprávou. Tyto indikátory můžete použít ke změření průběhu migrace. Vzhledem k tomu, že doba dokončení jednotlivých úkolů se liší, indikátor průběhu nebude pokračovat konzistentní rychlostí. Indikátor průběhu může například rychle přejít na 50 procent, ale dokončení zbývajících 50 procent trvá trochu déle.

    Snímek obrazovky s indikátorem průběhu při migraci dat

    Důležité

    Během migrace dat se váš účet Gen1 stane jen pro čtení a váš účet s podporou Gen2 je zakázaný. Po dokončení migrace můžete číst a zapisovat do obou účtů.

    Migraci můžete kdykoli zastavit výběrem tlačítka Zastavit migraci .

    Možnost Zastavit migraci

Možnost 2: Provedení úplné migrace

  1. Začněte tím, že se přihlásíte k webu Azure Portal .

  2. Vyhledejte svůj účet Data Lake Storage Gen1 a zobrazte přehled účtu.

  3. Vyberte tlačítko Migrovat data.

    Tlačítko Migrovat

  4. Vyberte Dokončit migraci na nový účet Gen2.

    Možnost dokončení migrace

  5. Zaškrtnutím políčka udělte Microsoftu souhlas s provedením migrace dat. Pak vyberte tlačítko Použít .

    Zaškrtávací políčko Souhlas

    Zobrazí se indikátor průběhu spolu s dílčí stavovou zprávou. Tyto indikátory můžete použít ke změření průběhu migrace. Vzhledem k tomu, že doba dokončení jednotlivých úkolů se liší, indikátor průběhu nebude pokračovat konzistentní rychlostí. Indikátor průběhu může například rychle přejít na 50 procent, ale dokončení zbývajících 50 procent trvá trochu déle.

    Snímek obrazovky s indikátorem průběhu při dokončení migrace

    Důležité

    Během migrace dat se váš účet Gen1 stane jen pro čtení a účet s podporou Gen2 je zakázaný.

    Během přesměrování identifikátoru URI Gen1 jsou oba účty zakázané.

    Po dokončení migrace se váš účet Gen1 zakáže. Data ve vašem účtu Gen1 nebudou přístupná a po 30 dnech se odstraní. Váš účet Gen2 bude k dispozici pro čtení a zápisy.

    Migraci můžete kdykoli zastavit, než se identifikátor URI přesměruje, výběrem tlačítka Zastavit migraci .

    Tlačítko Zastavit migraci

Krok 6: Ověření dokončení migrace

Pokud se migrace úspěšně dokončí, v účtu s podporou Gen2 se vytvoří kontejner s názvem Gen1 a všechna data z účtu Gen1 se zkopírují do tohoto nového kontejneru Gen1 . Pokud chcete najít data v cestě, která existovala v Gen1, musíte ke stejné cestě přidat předponu Gen1/ , abyste k ní měli přístup v Gen2. Například cesta s názvem FolderRoot/FolderChild/FileName.csv v Gen1 bude k dispozici v gen1/FolderRoot/FolderChild/FileName.csv Gen2. Názvy kontejnerů se nedají přejmenovat na Gen2, takže tento kontejner Gen1 v Gen2 se po migraci nedá přejmenovat. V případě potřeby se ale data dají zkopírovat do nového kontejneru v Gen2.

Pokud se migrace úspěšně nedokončí, zobrazí se zpráva s oznámením, že migrace je kvůli nekompatibilitě zastavená. Pokud chcete pomoct s dalším krokem, kontaktujte prosím podpora Microsoftu. Tato zpráva se může zobrazit, pokud byl dříve použit účet s podporou Gen2 nebo když soubory a adresáře v účtu Gen1 používaly nekompatibilní zásady vytváření názvů.

Než se obrátíte na podporu, ujistěte se, že používáte nový nově vytvořený účet úložiště, který nemá žádnou historii použití. Vyhněte se migraci na dříve použitý účet nebo účet, ve kterém byly odstraněny kontejnery, aby byl účet prázdný. V účtu Gen1 se ujistěte, že přejmenujete všechny názvy souborů nebo adresářů, které obsahují jenom mezery nebo tabulátory, končí na ., obsahují :znak nebo obsahují více lomítek (//).

Krok 7: Migrace úloh a aplikací

  1. Nakonfigurujte služby ve vašich úlohách tak, aby odkazovali na koncový bod Gen2. Odkazy na články, které vám pomůžou nakonfigurovat Azure Databricks, HDInsight a další služby Azure pro použití Gen2, najdete v tématu Služby Azure, které podporují Azure Data Lake Storage Gen2.

  2. Aktualizujte aplikace tak, aby používaly rozhraní API Gen2. Projděte si tyto příručky:

    Prostředí Článek
    Azure Storage Explorer Použití Průzkumník služby Azure Storage ke správě adresářů a souborů v Azure Data Lake Storage Gen2
    .NET Použití .NET ke správě adresářů a souborů v Azure Data Lake Storage Gen2
    Java Použití Javy ke správě adresářů a souborů ve službě Azure Data Lake Storage Gen2
    Python Použití Pythonu ke správě adresářů a souborů v Azure Data Lake Storage Gen2
    JavaScript (Node.js) Použití sady JavaScript SDK v Node.js ke správě adresářů a souborů ve službě Azure Data Lake Storage Gen2
    REST API Azure Data Lake Store REST API
  3. Aktualizujte skripty tak, aby používaly rutiny PowerShellu Data Lake Storage Gen2 a příkazy Azure CLI.

  4. Vyhledejte odkazy na identifikátor URI, které obsahují řetězec adl:// v souborech kódu nebo v poznámkových blocích Databricks, souborech Apache Hive HQL nebo jiných souborech používaných jako součást vašich úloh. Tyto odkazy nahraďte identifikátorem URI ve formátu Gen2 nového účtu úložiště. Například: Identifikátor URI Gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile může se stát abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.

Vrstva kompatibility Gen1

Tato vrstva se během migrace pokusí zajistit kompatibilitu aplikací mezi Gen1 a Gen2, aby aplikace mohly dál používat rozhraní API Gen1 k interakci s daty v účtu s podporou Gen2. Tato vrstva má omezenou funkčnost a doporučuje se ověřit úlohy s testovacími účty, pokud tento přístup používáte jako součást migrace. Vrstva kompatibility běží na serveru, takže není potřeba nic instalovat.

Důležité

Microsoft tuto funkci nedoporučuje jako náhradu za migraci úloh a aplikací. Podpora vrstvy kompatibility Gen1 skončí, když se Gen1 vyřadí z provozu 29. února 2024.

Pokud chcete zaznamenat nejmenší počet problémů s vrstvou kompatibility, ujistěte se, že vaše sady SDK Gen1 používají následující verze (nebo vyšší).

Jazyk Verze sady SDK
.NET 2.3.9
Java 1.1.21
Python 0.0.51

Následující funkce nejsou ve vrstvě kompatibility podporované.

  • Možnost rozhraní API ListStatus pro položku ListBefore

  • Rozhraní ListStatus API s více než 4 000 soubory bez tokenu pro pokračování

  • Kódování bloků dat pro operace připojení.

  • Všechna volání rozhraní API, která se používají https://management.azure.com/ jako cílová skupina tokenů Microsoft Entra.

  • Názvy souborů nebo adresářů pouze s mezerami nebo tabulátory, končícími znakem , obsahujícím .znak , :nebo s několika po sobě jdoucími lomítky (//).

Nejčastější dotazy

Jak dlouho bude migrace trvat?

Data a metadata se migrují paralelně. Celková doba potřebná k dokončení migrace je rovna té, která z těchto dvou procesů je dokončena naposledy.

Následující tabulka uvádí přibližnou rychlost jednotlivých úloh zpracování migrace.

Poznámka:

Tyto časové odhady jsou přibližné a můžou se lišit. Například kopírování velkého počtu malých souborů může zpomalit výkon.

Zpracování úlohy Rychlost
Kopírování dat 9 TB za hodinu
Ověření dat 9 milionů souborů nebo složek za hodinu
Kopírování metadat 4 miliony souborů nebo složek za hodinu
Zpracování metadat 25 milionů souborů nebo složek za hodinu
Další zpracování metadat (možnost kopírování dat)1 50 milionů souborů nebo složek za hodinu

1 Další doba zpracování metadat platí pouze v případě, že zvolíte možnost Kopírovat data do nového účtu Gen2. Tato doba zpracování se nevztahuje, pokud zvolíte možnost Dokončit migraci na nový účet Gen2.

Příklad: Zpracování velkého množství dat a metadat

Tento příklad předpokládá 300 TB dat a 200 milionů dat a položek metadat.

Úloha Odhadovaný čas
Kopírování dat 300 TB / 9 TB = 33,33 hodin
Ověření dat 200 milionů / 9 milionů = 22,22 hodin
Celková doba migrace dat 33,33 + 22,2 = 55,55 hodin
Kopírování metadat 200 milionů / 4 miliony = 50 hodin
Zpracování metadat 200 milionů / 25 milionů = 8 hodin
Další zpracování metadat – možnost kopírování dat 200 milionů / 50 milionů = 4 hodiny
Celková doba migrace metadat 50 + 8 + 4 = 62 hodin
Celková doba provedení migrace jen pro data 62 hodin
Celková doba provedení úplné migrace 62 – 4 = 58 hodin
Příklad: Zpracování malého množství dat a metadat

Tento příklad předpokládá, že 2 TB dat a 56 tisíc dat a položek metadat.

Úloha Odhadovaný čas
Kopírování dat (2 TB / 9 TB) * 60 minut = 13,3 minuty
Ověření dat (56 000 / 9 milionů) * 3 600 sekund = 22,4 sekundy
Celková doba migrace dat 13,3 minuty + 22,4 sekundy = přibližně 14 minut
Kopírování metadat (56 000 / 4 miliony) * 3 600 sekund = přibližně 51 sekund
Zpracování metadat 56 000/ 25 milionů = 8 sekund
Další zpracování metadat – možnost kopírování dat (56 000 / 50 milionů) * 3 600 sekund = 4 sekundy
Celková doba migrace metadat 51 + 8 + 4 = 63 sekund
Celková doba provedení migrace jen pro data 14 minut
Celková doba provedení úplné migrace 14 minut – 4 sekundy = 13 minut a 56 sekund (přibližně 14 minut)

Kolik stojí migrace dat?

Používání nástroje pro migraci založeného na portálu není nijak nákladné, ale bude se vám účtovat využití služeb Azure Data Lake Gen1 a Gen2. Během migrace dat se vám budou účtovat úložiště dat a transakce účtu Gen1.

Pokud jste po migraci zvolili možnost, která kopíruje jenom data, bude se vám účtovat úložiště dat a transakce za účty Azure Data Lake Gen1 a Gen2. Abyste se vyhnuli účtování účtu Gen1, odstraňte účet Gen1 po aktualizaci aplikací tak, aby odkazovaly na Gen2. Pokud jste se rozhodli provést úplnou migraci, budou se vám účtovat pouze úložiště dat a transakce účtu s podporou Gen2.

Ujistěte se, že se všechny vaše účty Azure Data Lake Analytics migrují do Azure Synapse Analytics nebo na jinou podporovanou výpočetní platformu. Po migraci účtů Azure Data Lake Analytics zkuste souhlas zopakovat. Pokud se problém zobrazí dál a máte plán podpory, můžete podat žádost o podporu. Odpovědi můžete získat také od odborníků z komunity v Microsoft Q&A.

Po dokončení migrace se můžu vrátit k používání účtu Gen1?

Pokud jste použili možnost 1: Zkopírujte data z Gen1 na Gen2 , jak je uvedeno výše, jsou účty Gen1 a Gen2 k dispozici pro čtení a zápisy po migraci. Pokud jste ale použili možnost 2: Provedení úplné migrace, návrat k účtu Gen1 se nepodporuje. V možnosti 2 po dokončení migrace nebudou data ve vašem účtu Gen1 přístupná a odstraní se po 30 dnech. Účet Gen1 můžete dál zobrazit na webu Azure Portal a až budete připraveni, můžete účet Gen1 odstranit.

Jak to mám udělat, chci v účtu s podporou Gen2 povolit geograficky redundantní úložiště (GRS)?

Po dokončení migrace můžete v možnostech Kopírování dat i Dokončení migrace pokračovat a změnit možnost redundance na GRS, pokud neplánujete používat vrstvu kompatibility aplikací. Kompatibilita aplikací nebude fungovat u účtů, které používají redundanci GRS.

Gen1 nemá kontejnery a Gen2 je obsahuje – co mám očekávat?

Když data zkopírujeme do vašeho účtu s podporou Gen2, automaticky vytvoříme kontejner s názvem Gen1. V názvech kontejnerů Gen2 se nedají přejmenovat, a proto je možné data po migraci podle potřeby zkopírovat do nového kontejneru v Gen2.

Co mám zvážit z hlediska výkonu migrace?

Když data zkopírujete do účtu s podporou Gen2, dva faktory, které můžou ovlivnit výkon, jsou počet souborů a množství metadat, která máte. Například mnoho malých souborů může ovlivnit výkon migrace.

Budou rozhraní API systému souborů WebHDFS podporovaná v účtu Gen2 po migraci?

Rozhraní API systému souborů WebHDFS Gen1 budou podporována v Gen2, ale s určitými odchylkami a prostřednictvím vrstvy kompatibility se podporují pouze omezené funkce. Zákazníci by měli naplánovat využití rozhraní API specifických pro Gen2 pro lepší výkon a funkce.

Co se stane s mým účtem Gen1 po datu vyřazení?

Účet je nepřístupný. Nebudete moct:

  • Správa účtu

  • Přístup k datům v účtu

  • Příjem aktualizací služeb pro rozhraní API Gen1 nebo Gen1, sady SDK nebo klientské nástroje

  • Přístup k zákaznické podpoře Gen1 online, telefonicky nebo e-mailem

Viz Požadovaná akce: Přechod na Azure Data Lake Storage Gen2 do 29. února 2024

Další kroky