Migrace Azure Data Lake Storage z Gen1 na Gen2 pomocí webu Azure Portal
V tomto článku se dozvíte, jak migraci zjednodušit pomocí webu Azure Portal.
Poznámka:
Azure Data Lake Storage Gen1 je teď vyřazený. Podívejte se na oznámení o vyřazení z provozu. Prostředky Data Lake Storage Gen1 už nejsou přístupné.
Tady je video, které vám o tom řekne víc.
Kapitoly:
00.37 - Úvod
01:16 - Příprava na migraci
07:15 – Kopírování migrace
17:40 – Kopírování a dokončení migrace
19:43 – Dokončení migrace
33:15 – Po migraci
Než začnete, přečtěte si obecné pokyny k migraci z Gen1 na Gen2 v pokynech a vzorech migrace do Azure Data Lake Storage.
Váš účet nemusí mít nárok na migraci na základě portálu na základě určitých omezení. Pokud na webu Azure Portal pro váš účet Gen1 není povolené tlačítko Migrovat data, můžete podat žádost o podporu. Odpovědi můžete získat také od odborníků z komunity v Microsoft Q&A.
Poznámka:
Pro snadnější čtení tento článek používá termín Gen1 k odkazování na Azure Data Lake Storage Gen1 a termín Gen2 , který odkazuje na Azure Data Lake Storage Gen2.
Krok 1: Vytvoření účtu úložiště s možnostmi Gen2
Azure Data Lake Storage Gen2 není vyhrazený účet úložiště ani typ služby. Je to sada funkcí, které můžete získat povolením funkce hierarchického oboru názvů účtu úložiště Azure. Pokud chcete vytvořit účet s funkcemi Gen2, přečtěte si téma Vytvoření účtu úložiště pro použití s Azure Data Lake Storage Gen2.
Při vytváření účtu nezapomeňte nakonfigurovat nastavení s následujícími hodnotami.
Nastavení | Hodnota |
---|---|
Název účtu úložiště | Libovolný název, který chcete mít. Tento název se nemusí shodovat s názvem vašeho účtu Gen1 a může být v libovolném předplatném podle vašeho výběru. |
Místo | Stejná oblast používaná účtem Data Lake Storage Gen1 |
Replikace | LRS nebo ZRS |
Minimální verze protokolu TLS | 1.0 |
NFS v3 | Zakázáno |
Hierarchický obor názvů | Povoleno |
Poznámka:
Nástroj pro migraci na webu Azure Portal nepřesune nastavení účtu. Po vytvoření účtu proto budete muset ručně nakonfigurovat nastavení, jako je šifrování, síťové brány firewall, ochrana dat.
Důležité
Ujistěte se, že používáte nový nově vytvořený účet úložiště, který nemá žádnou historii použití. Nemigrujte na dříve použitý účet nebo použijte účet, ve kterém byly odstraněny kontejnery, aby byl účet prázdný.
Krok 2: Ověření přiřazení rolí na základě role v Azure (Azure RBAC)
V případě Gen2 se ujistěte, že je role Vlastník dat objektu blob úložiště přiřazená vaší identitě uživatele Microsoft Entra v oboru účtu úložiště, nadřazené skupiny prostředků nebo předplatného.
V případě Gen1 se ujistěte, že je role Vlastník přiřazená vaší identitě Microsoft Entra v oboru účtu Gen1, nadřazené skupiny prostředků nebo předplatného.
Krok 3: Migrace úloh Azure Data Lake Analytics
Azure Data Lake Storage Gen2 nepodporuje Azure Data Lake Analytics. Azure Data Lake Analytics bude vyřazeno 29. února 2024. Pokud se pokusíte pomocí webu Azure Portal migrovat účet Azure Data Lake Storage Gen1, který se používá pro Azure Data Lake Analytics, je možné, že přerušíte úlohy Azure Data Lake Analytics. Před pokusem o migraci účtu Gen1 musíte nejprve migrovat úlohy Azure Data Lake Analytics do Azure Synapse Analytics nebo jiné podporované výpočetní platformy.
Další informace najdete v tématu Správa Azure Data Lake Analytics pomocí webu Azure Portal.
Krok 4: Příprava účtu Gen1
Názvy souborů nebo adresářů pouze s mezerami nebo tabulátory, končícími znakem , obsahujícím .
:
znak nebo s několika po sobě jdoucími lomítky (//
) nejsou kompatibilní s Gen2. Před migrací je potřeba tyto soubory nebo adresáře přejmenovat.
Pokud chcete dosáhnout lepšího výkonu, zvažte zpoždění migrace alespoň na deset dnů od doby poslední operace odstranění. V účtu Gen1 se odstraněné soubory stanou obnovitelně odstraněné soubory a systém uvolňování paměti je neodebere trvale až do sedmi dnů a zpracování vyčištění bude trvat několik dní navíc. Doba potřebnou k vyčištění bude záviset na počtu souborů. Během migrace se zpracovávají všechny soubory, včetně obnovitelně odstraněných souborů. Pokud počkáte, dokud systém uvolňování paměti trvale neodebere odstraněné soubory, může se doba čekání zlepšit.
Krok 5: Provedení migrace
Než začnete, projděte si následující dvě možnosti migrace a rozhodněte se, jestli chcete kopírovat jenom data z Gen1 na Gen2 (doporučeno) nebo provést úplnou migraci.
Možnost 1: Kopírování pouze dat (doporučeno). V této možnosti se data zkopírují z Gen1 do Gen2. Při kopírování dat se účet Gen1 stane jen pro čtení. Po zkopírování dat budou přístupné účty Gen1 i Gen2. Musíte ale aktualizovat aplikace a výpočetní úlohy tak, aby používaly nový koncový bod Gen2.
Možnost 2: Provedení úplné migrace V této možnosti se data zkopírují z Gen1 do Gen2. Po zkopírování dat se veškerý provoz z účtu Gen1 přesměruje na účet s podporou Gen2. Přesměrované požadavky používají vrstvu kompatibility Gen1 k překladu volání rozhraní API Gen1 na ekvivalenty Gen2. Během migrace se účet Gen1 stane jen pro čtení. Po dokončení migrace nebude účet Gen1 přístupný.
Podle toho, kterou možnost zvolíte, můžete po migraci a ověření, že všechny úlohy fungují podle očekávání, odstranit účet Gen1.
Možnost 1: Kopírování dat z Gen1 do Gen2
Začněte tím, že se přihlásíte k webu Azure Portal .
Vyhledejte svůj účet Data Lake Storage Gen1 a zobrazte přehled účtu.
Vyberte tlačítko Migrovat data.
Vyberte Kopírovat data do nového účtu Gen2.
Zaškrtnutím políčka udělte Microsoftu souhlas s provedením migrace dat. Pak vyberte tlačítko Použít .
Zobrazí se indikátor průběhu spolu s dílčí stavovou zprávou. Tyto indikátory můžete použít ke změření průběhu migrace. Vzhledem k tomu, že doba dokončení jednotlivých úkolů se liší, indikátor průběhu nebude pokračovat konzistentní rychlostí. Indikátor průběhu může například rychle přejít na 50 procent, ale dokončení zbývajících 50 procent trvá trochu déle.
Důležité
Během migrace dat se váš účet Gen1 stane jen pro čtení a váš účet s podporou Gen2 je zakázaný. Po dokončení migrace můžete číst a zapisovat do obou účtů.
Migraci můžete kdykoli zastavit výběrem tlačítka Zastavit migraci .
Možnost 2: Provedení úplné migrace
Začněte tím, že se přihlásíte k webu Azure Portal .
Vyhledejte svůj účet Data Lake Storage Gen1 a zobrazte přehled účtu.
Vyberte tlačítko Migrovat data.
Vyberte Dokončit migraci na nový účet Gen2.
Zaškrtnutím políčka udělte Microsoftu souhlas s provedením migrace dat. Pak vyberte tlačítko Použít .
Zobrazí se indikátor průběhu spolu s dílčí stavovou zprávou. Tyto indikátory můžete použít ke změření průběhu migrace. Vzhledem k tomu, že doba dokončení jednotlivých úkolů se liší, indikátor průběhu nebude pokračovat konzistentní rychlostí. Indikátor průběhu může například rychle přejít na 50 procent, ale dokončení zbývajících 50 procent trvá trochu déle.
Důležité
Během migrace dat se váš účet Gen1 stane jen pro čtení a účet s podporou Gen2 je zakázaný.
Během přesměrování identifikátoru URI Gen1 jsou oba účty zakázané.
Po dokončení migrace se váš účet Gen1 zakáže. Data ve vašem účtu Gen1 nebudou přístupná a po 30 dnech se odstraní. Váš účet Gen2 bude k dispozici pro čtení a zápisy.
Migraci můžete kdykoli zastavit, než se identifikátor URI přesměruje, výběrem tlačítka Zastavit migraci .
Krok 6: Ověření dokončení migrace
Pokud se migrace úspěšně dokončí, v účtu s podporou Gen2 se vytvoří kontejner s názvem Gen1 a všechna data z účtu Gen1 se zkopírují do tohoto nového kontejneru Gen1 . Pokud chcete najít data v cestě, která existovala v Gen1, musíte ke stejné cestě přidat předponu Gen1/ , abyste k ní měli přístup v Gen2. Například cesta s názvem FolderRoot/FolderChild/FileName.csv v Gen1 bude k dispozici v gen1/FolderRoot/FolderChild/FileName.csv Gen2. Názvy kontejnerů se nedají přejmenovat na Gen2, takže tento kontejner Gen1 v Gen2 se po migraci nedá přejmenovat. V případě potřeby se ale data dají zkopírovat do nového kontejneru v Gen2.
Pokud se migrace úspěšně nedokončí, zobrazí se zpráva s oznámením, že migrace je kvůli nekompatibilitě zastavená. Pokud chcete pomoct s dalším krokem, kontaktujte prosím podpora Microsoftu. Tato zpráva se může zobrazit, pokud byl dříve použit účet s podporou Gen2 nebo když soubory a adresáře v účtu Gen1 používaly nekompatibilní zásady vytváření názvů.
Než se obrátíte na podporu, ujistěte se, že používáte nový nově vytvořený účet úložiště, který nemá žádnou historii použití. Vyhněte se migraci na dříve použitý účet nebo účet, ve kterém byly odstraněny kontejnery, aby byl účet prázdný. V účtu Gen1 se ujistěte, že přejmenujete všechny názvy souborů nebo adresářů, které obsahují jenom mezery nebo tabulátory, končí na .
, obsahují :
znak nebo obsahují více lomítek (//
).
Krok 7: Migrace úloh a aplikací
Nakonfigurujte služby ve vašich úlohách tak, aby odkazovali na koncový bod Gen2. Odkazy na články, které vám pomůžou nakonfigurovat Azure Databricks, HDInsight a další služby Azure pro použití Gen2, najdete v tématu Služby Azure, které podporují Azure Data Lake Storage Gen2.
Aktualizujte aplikace tak, aby používaly rozhraní API Gen2. Projděte si tyto příručky:
Aktualizujte skripty tak, aby používaly rutiny PowerShellu Data Lake Storage Gen2 a příkazy Azure CLI.
Vyhledejte odkazy na identifikátor URI, které obsahují řetězec
adl://
v souborech kódu nebo v poznámkových blocích Databricks, souborech Apache Hive HQL nebo jiných souborech používaných jako součást vašich úloh. Tyto odkazy nahraďte identifikátorem URI ve formátu Gen2 nového účtu úložiště. Například: Identifikátor URI Gen1:adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile
může se státabfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile
.
Vrstva kompatibility Gen1
Tato vrstva se během migrace pokusí zajistit kompatibilitu aplikací mezi Gen1 a Gen2, aby aplikace mohly dál používat rozhraní API Gen1 k interakci s daty v účtu s podporou Gen2. Tato vrstva má omezenou funkčnost a doporučuje se ověřit úlohy s testovacími účty, pokud tento přístup používáte jako součást migrace. Vrstva kompatibility běží na serveru, takže není potřeba nic instalovat.
Důležité
Microsoft tuto funkci nedoporučuje jako náhradu za migraci úloh a aplikací. Podpora vrstvy kompatibility Gen1 skončí, když se Gen1 vyřadí z provozu 29. února 2024.
Pokud chcete zaznamenat nejmenší počet problémů s vrstvou kompatibility, ujistěte se, že vaše sady SDK Gen1 používají následující verze (nebo vyšší).
Jazyk | Verze sady SDK |
---|---|
.NET | 2.3.9 |
Java | 1.1.21 |
Python | 0.0.51 |
Následující funkce nejsou ve vrstvě kompatibility podporované.
Možnost rozhraní API ListStatus pro položku ListBefore
Rozhraní ListStatus API s více než 4 000 soubory bez tokenu pro pokračování
Kódování bloků dat pro operace připojení.
Všechna volání rozhraní API, která se používají
https://management.azure.com/
jako cílová skupina tokenů Microsoft Entra.Názvy souborů nebo adresářů pouze s mezerami nebo tabulátory, končícími znakem , obsahujícím
.
znak ,:
nebo s několika po sobě jdoucími lomítky (//
).
Nejčastější dotazy
Jak dlouho bude migrace trvat?
Data a metadata se migrují paralelně. Celková doba potřebná k dokončení migrace je rovna té, která z těchto dvou procesů je dokončena naposledy.
Následující tabulka uvádí přibližnou rychlost jednotlivých úloh zpracování migrace.
Poznámka:
Tyto časové odhady jsou přibližné a můžou se lišit. Například kopírování velkého počtu malých souborů může zpomalit výkon.
Zpracování úlohy | Rychlost |
---|---|
Kopírování dat | 9 TB za hodinu |
Ověření dat | 9 milionů souborů nebo složek za hodinu |
Kopírování metadat | 4 miliony souborů nebo složek za hodinu |
Zpracování metadat | 25 milionů souborů nebo složek za hodinu |
Další zpracování metadat (možnost kopírování dat)1 | 50 milionů souborů nebo složek za hodinu |
1 Další doba zpracování metadat platí pouze v případě, že zvolíte možnost Kopírovat data do nového účtu Gen2. Tato doba zpracování se nevztahuje, pokud zvolíte možnost Dokončit migraci na nový účet Gen2.
Příklad: Zpracování velkého množství dat a metadat
Tento příklad předpokládá 300 TB dat a 200 milionů dat a položek metadat.
Úloha | Odhadovaný čas |
---|---|
Kopírování dat | 300 TB / 9 TB = 33,33 hodin |
Ověření dat | 200 milionů / 9 milionů = 22,22 hodin |
Celková doba migrace dat | 33,33 + 22,2 = 55,55 hodin |
Kopírování metadat | 200 milionů / 4 miliony = 50 hodin |
Zpracování metadat | 200 milionů / 25 milionů = 8 hodin |
Další zpracování metadat – možnost kopírování dat | 200 milionů / 50 milionů = 4 hodiny |
Celková doba migrace metadat | 50 + 8 + 4 = 62 hodin |
Celková doba provedení migrace jen pro data | 62 hodin |
Celková doba provedení úplné migrace | 62 – 4 = 58 hodin |
Příklad: Zpracování malého množství dat a metadat
Tento příklad předpokládá, že 2 TB dat a 56 tisíc dat a položek metadat.
Úloha | Odhadovaný čas |
---|---|
Kopírování dat | (2 TB / 9 TB) * 60 minut = 13,3 minuty |
Ověření dat | (56 000 / 9 milionů) * 3 600 sekund = 22,4 sekundy |
Celková doba migrace dat | 13,3 minuty + 22,4 sekundy = přibližně 14 minut |
Kopírování metadat | (56 000 / 4 miliony) * 3 600 sekund = přibližně 51 sekund |
Zpracování metadat | 56 000/ 25 milionů = 8 sekund |
Další zpracování metadat – možnost kopírování dat | (56 000 / 50 milionů) * 3 600 sekund = 4 sekundy |
Celková doba migrace metadat | 51 + 8 + 4 = 63 sekund |
Celková doba provedení migrace jen pro data | 14 minut |
Celková doba provedení úplné migrace | 14 minut – 4 sekundy = 13 minut a 56 sekund (přibližně 14 minut) |
Kolik stojí migrace dat?
Používání nástroje pro migraci založeného na portálu není nijak nákladné, ale bude se vám účtovat využití služeb Azure Data Lake Gen1 a Gen2. Během migrace dat se vám budou účtovat úložiště dat a transakce účtu Gen1.
Pokud jste po migraci zvolili možnost, která kopíruje jenom data, bude se vám účtovat úložiště dat a transakce za účty Azure Data Lake Gen1 a Gen2. Abyste se vyhnuli účtování účtu Gen1, odstraňte účet Gen1 po aktualizaci aplikací tak, aby odkazovaly na Gen2. Pokud jste se rozhodli provést úplnou migraci, budou se vám účtovat pouze úložiště dat a transakce účtu s podporou Gen2.
Při poskytování souhlasu jsem narazil(a) na chybovou zprávu , že se inicializace migrace nezdařila. Co mám dělat dál?
Ujistěte se, že se všechny vaše účty Azure Data Lake Analytics migrují do Azure Synapse Analytics nebo na jinou podporovanou výpočetní platformu. Po migraci účtů Azure Data Lake Analytics zkuste souhlas zopakovat. Pokud se problém zobrazí dál a máte plán podpory, můžete podat žádost o podporu. Odpovědi můžete získat také od odborníků z komunity v Microsoft Q&A.
Po dokončení migrace se můžu vrátit k používání účtu Gen1?
Pokud jste použili možnost 1: Zkopírujte data z Gen1 na Gen2 , jak je uvedeno výše, jsou účty Gen1 a Gen2 k dispozici pro čtení a zápisy po migraci. Pokud jste ale použili možnost 2: Provedení úplné migrace, návrat k účtu Gen1 se nepodporuje. V možnosti 2 po dokončení migrace nebudou data ve vašem účtu Gen1 přístupná a odstraní se po 30 dnech. Účet Gen1 můžete dál zobrazit na webu Azure Portal a až budete připraveni, můžete účet Gen1 odstranit.
Jak to mám udělat, chci v účtu s podporou Gen2 povolit geograficky redundantní úložiště (GRS)?
Po dokončení migrace můžete v možnostech Kopírování dat i Dokončení migrace pokračovat a změnit možnost redundance na GRS, pokud neplánujete používat vrstvu kompatibility aplikací. Kompatibilita aplikací nebude fungovat u účtů, které používají redundanci GRS.
Gen1 nemá kontejnery a Gen2 je obsahuje – co mám očekávat?
Když data zkopírujeme do vašeho účtu s podporou Gen2, automaticky vytvoříme kontejner s názvem Gen1. V názvech kontejnerů Gen2 se nedají přejmenovat, a proto je možné data po migraci podle potřeby zkopírovat do nového kontejneru v Gen2.
Co mám zvážit z hlediska výkonu migrace?
Když data zkopírujete do účtu s podporou Gen2, dva faktory, které můžou ovlivnit výkon, jsou počet souborů a množství metadat, která máte. Například mnoho malých souborů může ovlivnit výkon migrace.
Budou rozhraní API systému souborů WebHDFS podporovaná v účtu Gen2 po migraci?
Rozhraní API systému souborů WebHDFS Gen1 budou podporována v Gen2, ale s určitými odchylkami a prostřednictvím vrstvy kompatibility se podporují pouze omezené funkce. Zákazníci by měli naplánovat využití rozhraní API specifických pro Gen2 pro lepší výkon a funkce.
Co se stane s mým účtem Gen1 po datu vyřazení?
Účet je nepřístupný. Nebudete moct:
Správa účtu
Přístup k datům v účtu
Příjem aktualizací služeb pro rozhraní API Gen1 nebo Gen1, sady SDK nebo klientské nástroje
Přístup k zákaznické podpoře Gen1 online, telefonicky nebo e-mailem
Viz Požadovaná akce: Přechod na Azure Data Lake Storage Gen2 do 29. února 2024
Další kroky
- Obecné informace o migraci Další informace najdete v tématu Migrace Služby Azure Data Lake Storage z Gen1 na Gen2.