Pokyny a vzory migrace služby Azure Data Lake Storage
Data, úlohy a aplikace můžete migrovat z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2. Tento článek vysvětluje doporučený přístup k migraci a popisuje různé vzory migrace a kdy je použít. Pro snadnější čtení tento článek používá termín Gen1 k odkazování na Azure Data Lake Storage Gen1 a termín Gen2 , který odkazuje na Azure Data Lake Storage Gen2.
Poznámka:
Azure Data Lake Storage Gen1 je teď vyřazený. Podívejte se na oznámení o vyřazení z provozu. Prostředky Data Lake Storage Gen1 už nejsou přístupné.
Azure Data Lake Storage Gen2 je založená na azure Blob Storage a poskytuje sadu funkcí vyhrazených pro analýzy velkých objemů dat. Data Lake Storage Gen2 kombinuje funkce z Azure Data Lake Storage Gen1, jako jsou sémantika systému souborů, adresář a zabezpečení na úrovni souborů a škálování s nízkými náklady, vrstveným úložištěm, vysokou dostupností a zotavením po havárii z Azure Blob Storage.
Poznámka:
Vzhledem k tomu, že Gen1 a Gen2 jsou různé služby, neexistuje žádné místní prostředí upgradu. Pokud chcete zjednodušit migraci na Gen2 pomocí webu Azure Portal, přečtěte si téma Migrace Azure Data Lake Storage z Gen1 na Gen2 pomocí webu Azure Portal.
Doporučený přístup
Pokud chcete migrovat z Gen1 na Gen2, doporučujeme následující přístup.
Krok 1: Posouzení připravenosti
Krok 2: Příprava na migraci
Krok 3: Migrace úloh dat a aplikací
Krok 4: Přímá migrace z Gen1 na Gen2
Krok 1: Posouzení připravenosti
Seznamte se s nabídkou Data Lake Storage Gen2, jejími výhodami, náklady a obecnou architekturou.
Projděte si seznam známých problémů a vyhodnoťte případné mezery ve funkčnosti.
Gen2 podporuje funkce úložiště objektů blob, jako jsou protokolování diagnostiky, úrovně přístupu a zásady správy životního cyklu úložiště objektů blob. Pokud vás zajímá používání některé z těchto funkcí, projděte si aktuální úroveň podpory.
Projděte si aktuální stav podpory ekosystému Azure a ujistěte se, že Gen2 podporuje všechny služby, na které vaše řešení závisejí.
Krok 2: Příprava na migraci
Identifikujte datové sady, které budete migrovat.
Využijte tuto příležitost k vyčištění datových sad, které už nepoužíváte. Pokud neplánujete migrovat všechna data najednou, zkuste tuto dobu identifikovat logické skupiny dat, které můžete migrovat ve fázích.
Proveďte analýzu stárnutí (nebo podobné) na svém účtu Gen1, abyste zjistili, které soubory nebo složky zůstanou v inventáři dlouho nebo které jsou možná zastaralé.
Určete dopad migrace na vaši firmu.
Zvažte například, jestli si během migrace můžete dovolit výpadky. Tyto aspekty vám můžou pomoct identifikovat vhodný vzor migrace a zvolit nejvhodnější nástroje.
Vytvořte plán migrace.
Tyto vzory migrace doporučujeme. Můžete si vybrat jeden z těchto vzorů, zkombinovat je dohromady nebo navrhnout vlastní vzor.
Krok 3: Migrace dat, úloh a aplikací
Migrujte data, úlohy a aplikace pomocí modelu, který dáváte přednost. Doporučujeme ověřovat scénáře přírůstkově.
Vytvořte účet úložiště a povolte funkci hierarchického oboru názvů.
Migrace dat
Nakonfigurujte služby ve vašich úlohách tak, aby odkazovali na koncový bod Gen2.
U clusterů HDInsight můžete do souboru %HADOOP_HOME%/conf/core-site.xml přidat nastavení konfigurace účtu úložiště. Pokud plánujete migrovat externí tabulky Hive z Gen1 na Gen2, nezapomeňte do souboru %HIVE_CONF_DIR%/hive-site.xml přidat i nastavení účtu úložiště.
Nastavení jednotlivých souborů můžete upravit pomocí Apache Ambari. Informace o nastavení účtu úložiště najdete v tématu Podpora Hadoop Azure: ABFS – Azure Data Lake Storage Gen2. Tento příklad používá
fs.azure.account.key
nastavení k povolení autorizace sdíleného klíče:<property> <name>fs.azure.account.key.abfswales1.dfs.core.windows.net</name> <value>your-key-goes-here</value> </property>
Odkazy na články, které vám pomůžou nakonfigurovat HDInsight, Azure Databricks a další služby Azure pro použití Gen2, najdete v tématu Služby Azure, které podporují Azure Data Lake Storage Gen2.
Aktualizujte aplikace tak, aby používaly rozhraní API Gen2. Projděte si tyto příručky:
Aktualizujte skripty tak, aby používaly rutiny PowerShellu Data Lake Storage Gen2 a příkazy Azure CLI.
Vyhledejte odkazy na identifikátor URI, které obsahují řetězec
adl://
v souborech kódu nebo v poznámkových blocích Databricks, souborech Apache Hive HQL nebo jiných souborech používaných jako součást vašich úloh. Tyto odkazy nahraďte identifikátorem URI ve formátu Gen2 nového účtu úložiště. Například: Identifikátor URI Gen1:adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile
může se státabfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile
.Nakonfigurujte zabezpečení vašeho účtu tak, aby zahrnovalo role Azure, zabezpečení na úrovni souborů a složek a brány firewall služby Azure Storage a virtuální sítě.
Krok 4: Přímá migrace z Gen1 na Gen2
Jakmile budete mít jistotu, že vaše aplikace a úlohy jsou v Gen2 stabilní, můžete začít používat Gen2, abyste vyhověli obchodním scénářům. Vypněte všechny zbývající kanály, které běží na Gen1, a vyřaďte z provozu váš účet Gen1.
Možnosti Gen1 a Gen2
Tato tabulka porovnává možnosti Gen1 s gen2.
Vzory Gen1 až Gen2
Zvolte vzor migrace a podle potřeby ho upravte.
Model migrace | Detaily |
---|---|
Lift and Shift | Nejjednodušší vzor. Ideální, pokud si datové kanály můžou dovolit výpadek. |
Přírůstková kopie | Podobá se metodě lift and shift, ale s menším výpadkem. Ideální pro velké objemy dat, která kopírování trvá déle. |
Duální kanál | Ideální pro kanály, které si nemůžou dovolit žádné výpadky. |
Obousměrná synchronizace | Podobá se duálnímu kanálu, ale s více fázovaným přístupem, který je vhodný pro složitější kanály. |
Pojďme se podrobněji podívat na jednotlivé vzory.
Vzor metodou "lift and shift"
Toto je nejjednodušší vzor.
Zastavte všechny zápisy do Gen1.
Přesun dat z Gen1 na Gen2 Službu Azure Data Factory nebo azure Portal doporučujeme použít. Seznamy ACL zkopírují data.
Nasměrování operací ingestování a úloh na Gen2
Vyřazení z provozu Gen1
Podívejte se na vzorový kód pro metodu "lift and shift" v ukázce migrace "Lift and Shift".
Důležité informace o používání modelu "lift and shift"
Přímá migrace z Gen1 na Gen2 pro všechny úlohy najednou
Během migrace a období přímé migrace můžete očekávat výpadek.
Ideální pro kanály, které si můžou dovolit výpadek a všechny aplikace je možné upgradovat najednou.
Tip
Zvažte použití webu Azure Portal ke zkrácení výpadků a snížení počtu kroků potřebných k dokončení migrace.
Vzor přírůstkového kopírování
Začněte přesouvat data z Gen1 na Gen2. Doporučujeme azure Data Factory. Seznamy ACL zkopírují data.
Přírůstkové kopírování nových dat z Gen1
Po zkopírování všech dat zastavte všechny zápisy do Gen1 a nasměrujte úlohy na Gen2.
Vyřazení z provozu Gen1
Podívejte se na náš ukázkový kód pro vzor přírůstkového kopírování v ukázce přírůstkové migrace kopírování.
Důležité informace o používání vzoru přírůstkové kopie:
Přímá migrace z Gen1 na Gen2 pro všechny úlohy najednou
Očekáváme výpadek pouze během přímé doby.
Ideální pro kanály, kde se všechny aplikace upgradovaly najednou, ale kopírování dat vyžaduje více času.
Model duálního kanálu
Přesun dat z Gen1 na Gen2 Doporučujeme azure Data Factory. Seznamy ACL zkopírují data.
Ingestování nových dat pro Gen1 i Gen2
Nasměrovat úlohy na Gen2
Zastavte všechny zápisy do Gen1 a pak vyřaďte Gen1 z provozu.
Podívejte se na náš ukázkový kód pro vzor duálního kanálu v ukázce migrace duálního kanálu.
Důležité informace o používání modelu duálního kanálu:
Kanály Gen1 a Gen2 běží souběžně.
Podporuje nulový výpadek.
Ideální v situacích, kdy si vaše úlohy a aplikace nemohou dovolit žádné výpadky a můžete ingestovat do obou účtů úložiště.
Vzor obousměrné synchronizace
Nastavte obousměrnou replikaci mezi Gen1 a Gen2. Doporučujeme WanDisco. Nabízí funkci opravy pro existující data.
Po dokončení všech přesunů zastavte všechny zápisy do Gen1 a vypněte obousměrnou replikaci.
Vyřazení z provozu Gen1
Podívejte se na vzor obousměrné synchronizace v ukázce migrace obousměrné synchronizace.
Důležité informace o používání obousměrného vzoru synchronizace:
Ideální pro složité scénáře, které zahrnují velký počet kanálů a závislostí, kde by fázovaný přístup mohl dávat větší smysl.
Migrace je vysoká, ale poskytuje souběžnou podporu pro Gen1 a Gen2.
Další kroky
- Přečtěte si o různých částech nastavení zabezpečení pro účet úložiště. Další informace najdete v průvodci zabezpečením služby Azure Storage.
- Optimalizujte výkon služby Data Lake Store. Informace o optimalizaci výkonu služby Azure Data Lake Storage Gen2
- Projděte si osvědčené postupy pro správu služby Data Lake Store. Prohlédněte si osvědčené postupy pro používání Azure Data Lake Storage Gen2.