Pokyny a vzory migrace služby Azure Data Lake Storage

Článek
03/09/2023

Data, úlohy a aplikace můžete migrovat z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2. Tento článek vysvětluje doporučený přístup k migraci a popisuje různé vzory migrace a kdy je použít. Pro snadnější čtení tento článek používá termín Gen1 k odkazování na Azure Data Lake Storage Gen1 a termín Gen2 , který odkazuje na Azure Data Lake Storage Gen2.

Poznámka:

Azure Data Lake Storage Gen1 je teď vyřazený. Podívejte se na oznámení o vyřazení z provozu. Prostředky Data Lake Storage Gen1 už nejsou přístupné.

Azure Data Lake Storage Gen2 je založená na azure Blob Storage a poskytuje sadu funkcí vyhrazených pro analýzy velkých objemů dat. Data Lake Storage Gen2 kombinuje funkce z Azure Data Lake Storage Gen1, jako jsou sémantika systému souborů, adresář a zabezpečení na úrovni souborů a škálování s nízkými náklady, vrstveným úložištěm, vysokou dostupností a zotavením po havárii z Azure Blob Storage.

Poznámka:

Vzhledem k tomu, že Gen1 a Gen2 jsou různé služby, neexistuje žádné místní prostředí upgradu. Pokud chcete zjednodušit migraci na Gen2 pomocí webu Azure Portal, přečtěte si téma Migrace Azure Data Lake Storage z Gen1 na Gen2 pomocí webu Azure Portal.

Doporučený přístup

Pokud chcete migrovat z Gen1 na Gen2, doporučujeme následující přístup.

Krok 1: Posouzení připravenosti

Krok 2: Příprava na migraci

Krok 3: Migrace úloh dat a aplikací

Krok 4: Přímá migrace z Gen1 na Gen2

Krok 1: Posouzení připravenosti

Seznamte se s nabídkou Data Lake Storage Gen2, jejími výhodami, náklady a obecnou architekturou.
Porovnejte možnosti Gen1 s možnostmi Gen2.
Projděte si seznam známých problémů a vyhodnoťte případné mezery ve funkčnosti.
Gen2 podporuje funkce úložiště objektů blob, jako jsou protokolování diagnostiky, úrovně přístupu a zásady správy životního cyklu úložiště objektů blob. Pokud vás zajímá používání některé z těchto funkcí, projděte si aktuální úroveň podpory.
Projděte si aktuální stav podpory ekosystému Azure a ujistěte se, že Gen2 podporuje všechny služby, na které vaše řešení závisejí.

Krok 2: Příprava na migraci

Identifikujte datové sady, které budete migrovat.

Využijte tuto příležitost k vyčištění datových sad, které už nepoužíváte. Pokud neplánujete migrovat všechna data najednou, zkuste tuto dobu identifikovat logické skupiny dat, které můžete migrovat ve fázích.

Proveďte analýzu stárnutí (nebo podobné) na svém účtu Gen1, abyste zjistili, které soubory nebo složky zůstanou v inventáři dlouho nebo které jsou možná zastaralé.
Určete dopad migrace na vaši firmu.

Zvažte například, jestli si během migrace můžete dovolit výpadky. Tyto aspekty vám můžou pomoct identifikovat vhodný vzor migrace a zvolit nejvhodnější nástroje.
Vytvořte plán migrace.

Tyto vzory migrace doporučujeme. Můžete si vybrat jeden z těchto vzorů, zkombinovat je dohromady nebo navrhnout vlastní vzor.

Krok 3: Migrace dat, úloh a aplikací

Migrujte data, úlohy a aplikace pomocí modelu, který dáváte přednost. Doporučujeme ověřovat scénáře přírůstkově.

Vytvořte účet úložiště a povolte funkci hierarchického oboru názvů.
Migrace dat
Nakonfigurujte služby ve vašich úlohách tak, aby odkazovali na koncový bod Gen2.

U clusterů HDInsight můžete do souboru %HADOOP_HOME%/conf/core-site.xml přidat nastavení konfigurace účtu úložiště. Pokud plánujete migrovat externí tabulky Hive z Gen1 na Gen2, nezapomeňte do souboru %HIVE_CONF_DIR%/hive-site.xml přidat i nastavení účtu úložiště.

Nastavení jednotlivých souborů můžete upravit pomocí Apache Ambari. Informace o nastavení účtu úložiště najdete v tématu Podpora Hadoop Azure: ABFS – Azure Data Lake Storage Gen2. Tento příklad používá fs.azure.account.key nastavení k povolení autorizace sdíleného klíče:
```
<property>
  <name>fs.azure.account.key.abfswales1.dfs.core.windows.net</name>
  <value>your-key-goes-here</value>
</property>
```
Odkazy na články, které vám pomůžou nakonfigurovat HDInsight, Azure Databricks a další služby Azure pro použití Gen2, najdete v tématu Služby Azure, které podporují Azure Data Lake Storage Gen2.
Aktualizujte aplikace tak, aby používaly rozhraní API Gen2. Projděte si tyto příručky:

Prostředí	Článek
Azure Storage Explorer	Použití Průzkumník služby Azure Storage ke správě adresářů a souborů v Azure Data Lake Storage Gen2
.NET	Použití .NET ke správě adresářů a souborů v Azure Data Lake Storage Gen2
Java	Použití Javy ke správě adresářů a souborů ve službě Azure Data Lake Storage Gen2
Python	Použití Pythonu ke správě adresářů a souborů v Azure Data Lake Storage Gen2
JavaScript (Node.js)	Použití sady JavaScript SDK v Node.js ke správě adresářů a souborů ve službě Azure Data Lake Storage Gen2
REST API	Azure Data Lake Store REST API

Aktualizujte skripty tak, aby používaly rutiny PowerShellu Data Lake Storage Gen2 a příkazy Azure CLI.
Vyhledejte odkazy na identifikátor URI, které obsahují řetězec adl:// v souborech kódu nebo v poznámkových blocích Databricks, souborech Apache Hive HQL nebo jiných souborech používaných jako součást vašich úloh. Tyto odkazy nahraďte identifikátorem URI ve formátu Gen2 nového účtu úložiště. Například: Identifikátor URI Gen1: adl://mydatalakestore.azuredatalakestore.net/mydirectory/myfile může se stát abfss://myfilesystem@mydatalakestore.dfs.core.windows.net/mydirectory/myfile.
Nakonfigurujte zabezpečení vašeho účtu tak, aby zahrnovalo role Azure, zabezpečení na úrovni souborů a složek a brány firewall služby Azure Storage a virtuální sítě.

Krok 4: Přímá migrace z Gen1 na Gen2

Jakmile budete mít jistotu, že vaše aplikace a úlohy jsou v Gen2 stabilní, můžete začít používat Gen2, abyste vyhověli obchodním scénářům. Vypněte všechny zbývající kanály, které běží na Gen1, a vyřaďte z provozu váš účet Gen1.

Možnosti Gen1 a Gen2

Tato tabulka porovnává možnosti Gen1 s gen2.

Plocha	Gen1	Gen2
Organizace dat	Hierarchický obor názvů Podpora souborů a složek	Hierarchický obor názvů Podpora kontejnerů, souborů a složek
Geografická redundance	LRS	LRS, ZRS, GRS, RA-GRS
Ověřování	Spravovaná identita Microsoft Entra Instanční objekty	Spravovaná identita Microsoft Entra Instanční objekty Sdílený přístupový klíč
Autorizace	Správa – Azure RBAC Data – seznamy ACL	Správa – Azure RBAC Data – seznamy ACL, Azure RBAC
Šifrování – neaktivní uložená data	Serverová strana – s klíči spravovanými Microsoftem nebo klíči spravovanými zákazníkem	Serverová strana – s klíči spravovanými Microsoftem nebo klíči spravovanými zákazníkem
Podpora virtuálních sítí	Integrace virtuální sítě	Koncové body služby, privátní koncové body
Prostředí vývojáře	REST, .NET, Java, Python, PowerShell, Azure CLI	Obecně dostupné – REST, .NET, Java, Python Public Preview – JavaScript, PowerShell, Azure CLI
Protokoly prostředků	Klasické protokoly Integrované služby Azure Monitor	Klasické protokoly – Obecně dostupné Integrované služby Azure Monitor – Preview
Ekosystém	HDInsight (3.6), Azure Databricks (3.1 a novější), Azure Synapse Analytics, ADF	HDInsight (3.6, 4.0), Azure Databricks (5.1 a novější), Azure Synapse Analytics, ADF

Vzory Gen1 až Gen2

Zvolte vzor migrace a podle potřeby ho upravte.

Model migrace	Detaily
Lift and Shift	Nejjednodušší vzor. Ideální, pokud si datové kanály můžou dovolit výpadek.
Přírůstková kopie	Podobá se metodě lift and shift, ale s menším výpadkem. Ideální pro velké objemy dat, která kopírování trvá déle.
Duální kanál	Ideální pro kanály, které si nemůžou dovolit žádné výpadky.
Obousměrná synchronizace	Podobá se duálnímu kanálu, ale s více fázovaným přístupem, který je vhodný pro složitější kanály.

Pojďme se podrobněji podívat na jednotlivé vzory.

Vzor metodou "lift and shift"

Toto je nejjednodušší vzor.

Zastavte všechny zápisy do Gen1.
Přesun dat z Gen1 na Gen2 Službu Azure Data Factory nebo azure Portal doporučujeme použít . Seznamy ACL zkopírují data.
Nasměrování operací ingestování a úloh na Gen2
Vyřazení z provozu Gen1

Podívejte se na vzorový kód pro metodu "lift and shift" v ukázce migrace "Lift and Shift".

Model

Důležité informace o používání modelu "lift and shift"

Přímá migrace z Gen1 na Gen2 pro všechny úlohy najednou
Během migrace a období přímé migrace můžete očekávat výpadek.
Ideální pro kanály, které si můžou dovolit výpadek a všechny aplikace je možné upgradovat najednou.

Tip

Zvažte použití webu Azure Portal ke zkrácení výpadků a snížení počtu kroků potřebných k dokončení migrace.

Vzor přírůstkového kopírování

Začněte přesouvat data z Gen1 na Gen2. Doporučujeme azure Data Factory. Seznamy ACL zkopírují data.
Přírůstkové kopírování nových dat z Gen1
Po zkopírování všech dat zastavte všechny zápisy do Gen1 a nasměrujte úlohy na Gen2.
Vyřazení z provozu Gen1

Podívejte se na náš ukázkový kód pro vzor přírůstkového kopírování v ukázce přírůstkové migrace kopírování.

Vzor přírůstkového kopírování

Důležité informace o používání vzoru přírůstkové kopie:

Přímá migrace z Gen1 na Gen2 pro všechny úlohy najednou
Očekáváme výpadek pouze během přímé doby.
Ideální pro kanály, kde se všechny aplikace upgradovaly najednou, ale kopírování dat vyžaduje více času.

Model duálního kanálu

Přesun dat z Gen1 na Gen2 Doporučujeme azure Data Factory. Seznamy ACL zkopírují data.
Ingestování nových dat pro Gen1 i Gen2
Nasměrovat úlohy na Gen2
Zastavte všechny zápisy do Gen1 a pak vyřaďte Gen1 z provozu.

Podívejte se na náš ukázkový kód pro vzor duálního kanálu v ukázce migrace duálního kanálu.

Model duálního kanálu

Důležité informace o používání modelu duálního kanálu:

Kanály Gen1 a Gen2 běží souběžně.
Podporuje nulový výpadek.
Ideální v situacích, kdy si vaše úlohy a aplikace nemohou dovolit žádné výpadky a můžete ingestovat do obou účtů úložiště.

Vzor obousměrné synchronizace

Nastavte obousměrnou replikaci mezi Gen1 a Gen2. Doporučujeme WanDisco. Nabízí funkci opravy pro existující data.
Po dokončení všech přesunů zastavte všechny zápisy do Gen1 a vypněte obousměrnou replikaci.
Vyřazení z provozu Gen1

Podívejte se na vzor obousměrné synchronizace v ukázce migrace obousměrné synchronizace.

Obousměrný vzor

Důležité informace o používání obousměrného vzoru synchronizace:

Ideální pro složité scénáře, které zahrnují velký počet kanálů a závislostí, kde by fázovaný přístup mohl dávat větší smysl.
Migrace je vysoká, ale poskytuje souběžnou podporu pro Gen1 a Gen2.

Další kroky

Přečtěte si o různých částech nastavení zabezpečení pro účet úložiště. Další informace najdete v průvodci zabezpečením služby Azure Storage.
Optimalizujte výkon služby Data Lake Store. Informace o optimalizaci výkonu služby Azure Data Lake Storage Gen2
Projděte si osvědčené postupy pro správu služby Data Lake Store. Prohlédněte si osvědčené postupy pro používání Azure Data Lake Storage Gen2.

Sdílet prostřednictvím

Pokyny a vzory migrace služby Azure Data Lake Storage

Doporučený přístup

Krok 1: Posouzení připravenosti

Krok 2: Příprava na migraci

Krok 3: Migrace dat, úloh a aplikací

Krok 4: Přímá migrace z Gen1 na Gen2

Možnosti Gen1 a Gen2

Vzory Gen1 až Gen2

Vzor metodou "lift and shift"

Důležité informace o používání modelu "lift and shift"

Vzor přírůstkového kopírování

Důležité informace o používání vzoru přírůstkové kopie:

Model duálního kanálu

Důležité informace o používání modelu duálního kanálu:

Vzor obousměrné synchronizace

Důležité informace o používání obousměrného vzoru synchronizace:

Další kroky

Viz také

Další materiály