Sdílet prostřednictvím


Plánování migrace datového skladu

Migrace datového skladu je výzvou pro každou společnost. Abyste ho mohli dobře provést a vyhnuli se nežádoucím překvapením a neplánovaným nákladům, musíte tento problém důkladně prozkoumat, zmírnit rizika a naplánovat migraci, abyste měli jistotu, že jste co nejvíce připravení. Na vysoké úrovni by měl váš plán pokrývat základní kroky procesu migrace datového skladu a všechny úkoly v nich. Hlavní kroky procesu:

  • Příprava před migrací
  • Strategie a provádění migrace
  • Po migraci

Příprava zahrnuje například přípravu týmu pro migraci datového skladu z hlediska školení dovedností a seznámení s technologiemi. Zahrnuje také nastavení testovacího prostředí pro testování konceptu, pochopení způsobu správy testovacího a produkčního prostředí, získání vhodného oprávnění k migraci dat a produkčního systému mimo podnikovou bránu firewall a nastavení softwaru pro migraci ve vašem datacentru, aby migrace mohla pokračovat.

Aby migrace datového skladu probíhala hladce, měl by plán jasně porozumět:

  • Váš obchodní případ, včetně jeho faktorů, obchodních výhod a rizik
  • Role a odpovědnosti týmu migrace.
  • Dovednosti a školení potřebné k zajištění úspěšné migrace.
  • Přidělený rozpočet pro dokončení migrace.
  • Vaše strategie migrace.
  • Jak se můžete vyhnout riziku v projektu migrace, abyste se vyhnuli zpožděním nebo přepracování.
  • Váš stávající systém datového skladu, jeho architektura, schéma, objemy dat, toky dat, zabezpečení a provozní závislosti
  • Rozdíly mezi existujícím místním datovým skladem DBMS a Azure Synapse, jako jsou datové typy, funkce SQL, logika a další důležité informace
  • Co je potřeba migrovat a priority.
  • Úkoly migrace, přístupy, pořadí a konečné termíny migrace
  • Jak budete řídit migraci.
  • Jak zabránit přerušení provozu uživatelů při provádění migrace
  • Co musíte udělat místně, abyste se vyhnuli zpožděním a povolili migraci.
  • Nástroje pro zajištění zabezpečené migrace schémat, dat a zpracování ETL do Azure
  • Změny návrhu datového modelu, které se vyžadují během migrace a po migraci.
  • Jakékoli změny technologií před migrací nebo po migraci a způsob, jak minimalizovat přepracování.
  • Vyřazení technologie po migraci
  • Jak budete implementovat testování a kontrolu kvality, abyste prokázali úspěch.
  • Vaše kontrolní body k vyhodnocení pokroku a umožnění přijímání rozhodnutí.
  • Váš plán pro nepředvídané události a body vrácení zpět pro případ, že se něco nepovede.

Abychom toho dosáhli, musíme před zahájením migrace připravit a zahájit konkrétní aktivity. Pojďme se podívat na to, co to obnáší podrobněji.

Příprava před migrací

Před zahájením migrace datového skladu je potřeba vyřešit několik věcí.

Klíčové role v týmu pro migraci datového skladu

Mezi klíčové role v projektu migrace patří:

  • Vlastník firmy
  • Projektový manažer (se zkušenostmi s agilními metodologiemi, jako je Scrum)
  • Koordinátor projektu
  • Cloudový inženýr
  • Správce databáze (existující dbms a Azure Synapse datového skladu)
  • Modelátory dat
  • Vývojáři ETL
  • Specialista na virtualizaci dat (případně správce databáze)
  • Testovací technik
  • Obchodní analytici (pomáhají testovat dotazy, sestavy a analýzy nástrojů BI)

Kromě toho tým potřebuje podporu vašeho týmu místní infrastruktury.

Dovednosti a školení pro přípravu týmu na migraci

S ohledem na dovednosti jsou při migraci datového skladu důležité odborné znalosti. Proto se ujistěte, že jsou příslušní členové vašeho týmu pro migraci vyškoleni v tématu Základy cloudu Azure, Azure Blob Storage, Azure Data Lake Storage, Azure Data Box, ExpressRoute, Azure Identity Management, Azure Data Factory a Azure Synapse. Jakmile dojde k migraci z existujícího datového skladu, budou vaši modelátoři dat pravděpodobně muset doladit datové modely Microsoft Azure Synapse.

Posouzení existujícího datového skladu

Další součástí přípravy na migraci je potřeba úplného posouzení stávajícího datového skladu, abyste plně porozuměli architektuře, úložištím dat, schématu, obchodní logice, tokům dat, použitým funkcím DBMS, provozu skladu a závislostem. Čím více porozumění je zde získáno, tím lépe. Podrobná znalost toho, jak systém funguje, pomáhá komunikovat a zakrýt všechny základy.

Účelem posouzení není jen zajistit podrobné porozumění aktuálnímu nastavení v rámci migračního týmu, ale také porozumět silným a slabým stránkám aktuálního nastavení. Výsledek posouzení vašeho aktuálního datového skladu proto může mít vliv na strategii migrace z hlediska migrace metodou lift and shift v porovnání s něčím širším. Pokud je například výsledkem posouzení, že váš datový sklad je na konci životnosti, pak je zřejmé, že strategií by byla spíše migrace dat do nově navrženého datového skladu na Azure Synapse než přístup typu "lift and shift".

Místní příprava na migraci dat

Kromě přípravy a přípravy týmu pro migraci pro cílové prostředí a posouzení vašeho aktuálního nastavení je stejně důležité i uvedení věcí do provozu v místním prostředí, protože produkční datové sklady bývají silně řízeny postupy IT a schvalovacími procesy. Aby nedocházelo ke zpožděním, ujistěte se, že jsou provozní týmy a infrastruktura vašeho datacentra připravené na migraci dat, schématu, úloh ETL atd. do cloudu Azure. K migraci dat může dojít prostřednictvím:

  • AzCopy do azure Blob Storage.
  • Microsoft Azure ExpressRoute pro přenos komprimovaných dat přímo do Azure.
  • Export souboru do Azure Data Boxu

Hlavní faktory ovlivňující, které z těchto možností jsou vybrané, jsou velikost objemu dat (v terabajtech) a rychlost sítě (v Mb/s). Výpočet je nutný k určení, jak dlouho by migrace dat přes síť mohla trvat, vzhledem k tomu, že data můžou být v datovém skladu komprimovaná a při exportu se nekomprimují. Tato situace může zpomalit přenos dat. Při přesunu dat některou z výše uvedených metod překomprimujte data přes Gzip. PolyBase může zpracovávat data Gzipped přímo. Pokud přesun dat bude trvat příliš dlouho, budou se velké objemy dat pravděpodobně migrovat přes Azure Data Box.

Aby Azure Data Factory řídit provádění exportů stávajících dat datového skladu z Azure, musí být navíc ve vašem datacentru nainstalovaný software runtime integrace v místním prostředí, aby mohla migrace pokračovat. Vzhledem k těmto požadavkům, pokud je k tomu potřeba formální schválení, pomůže vám včasné zahájení příslušných schvalovacích procesů, které to umožní, vyhnout se zpožděním.

Příprava Azure na migraci schématu a dat

Pokud jde o přípravu na straně Azure, import dat bude potřeba spravovat buď přes Microsoft Azure ExpressRoute, nebo Microsoft Azure Data Box. Azure Data Factory kanály představují ideální způsob, jak načíst data do úložiště objektů blob v Azure a pak je načíst do Azure Synapse pomocí PolyBase. Proto je na straně Azure potřeba příprava na vývoj takového kanálu.

Alternativou je použít stávající nástroj ETL v Azure, pokud podporuje Azure Synapse, což znamená nastavit nástroj v Azure z Azure Marketplace a připravit kanál pro import dat a načtení do úložiště objektů blob v Azure.

Definování strategie migrace

Cíle migrace

V každé strategii musí existovat soubor cílů, které by měly být definovány tak, aby označily úspěch. Tyto cíle pak mohou být nastaveny tak, aby tyto cíle dosáhly, a osoby, které jsou odpovědné za jejich dosažení. Příklady cílů migrace a odpovídajících metrik pro nastavení cílů v projektu migrace cloudového datového skladu najdete v následující tabulce:

Typy příkladů cílů a metrik:

Zlepšení celkového výkonu

  • Výkon migrace dat
  • Výkon ELT
  • Výkon načítání dat
  • Výkon složitých dotazů
  • Počet souběžných uživatelů

Provoz s nižšími náklady

  • Náklady na výpočetní prostředky podle úloh, například počet výpočetních hodin × cena za hodinu pro:
    • Standardní generování sestav
    • Ad hoc dotazy
    • Dávkové zpracování ELT
  • Náklady na úložiště (pracovní, produkční tabulky, indexy, dočasné místo)

Provoz s lepší dostupností a úrovněmi služeb

  • Smlouvy o úrovni služeb
  • Vysoká dostupnost

Produktivně se zlepšujte

  • Automatizované úlohy, snížený počet administrativních zaměstnanců

Úspěšnou migraci datového skladu je proto možné interpretovat jako datový sklad, který běží stejně rychle nebo rychleji a s nižšími náklady než starší systém, ze kterého jste migrovali. Přiřazení vlastníků těchto cílů vytváří odpovědnost za jejich dosažení. Zajišťuje také, že testování v testovacím prostředí pro testování konceptu (jak je definováno v části o odstraňování rizik v této příručce) bude považováno za úspěšné, pokud testy identifikují způsoby, jak lze cílů dosáhnout.

Přístup k migraci

Máte několik strategických možností migrace stávajícího datového skladu do Azure Synapse:

  • Zvedněte a přesuňte stávající datový sklad tak, jak je.
  • Zjednodušte si stávající datový sklad a pak ho migrujte.
  • Zcela přepracujte datový sklad na Azure Synapse a migrujte data.

Zjištění posouzení vašeho stávajícího datového skladu by měla významně ovlivnit vaši strategii. Dobrý výsledek posouzení může doporučit strategii "lift and shift". Průměrný výsledek z důvodu nízkého hodnocení flexibility může znamenat, že před migrací je potřeba zjednodušit. Špatný výsledek může znamenat, že je potřeba provést kompletní změnu.

Lift and Shift opouští architekturu tak, jak je, a snaží se minimalizovat práci při přesunu stávajícího systému. Pokud váš stávající nástroj ETL už podporuje Azure Synapse, možná budete moct změnit cíl s minimálním úsilím. Budou však existovat rozdíly v typech tabulek, datových typech, funkcích SQL, zobrazeních, obchodní logice uložených procedur atd. Tyto rozdíly a způsoby, jak je obejít, jsou podrobně popsané v dokumentech nižší úrovně v této řadě migrace.

Zjednodušení stávajícího datového skladu před migrací spočívá ve snížení složitosti a usnadnění migrace. Může zahrnovat:

  • Odebrání nebo archivace nepoužívaných tabulek před migrací, aby se zabránilo migraci dat, která se nepoužívají.
  • Převod fyzických datových tržítků na virtuální datová tržiště pomocí softwaru pro virtualizaci dat za účelem omezení toho, co je potřeba migrovat. Převod také zlepšuje flexibilitu a snižuje celkové náklady na vlastnictví, takže se může během migrace považovat za modernizaci.

Můžete také nejprve zjednodušit a pak zvednout a posunout to, co zbývá.

Rozsah migrace

Bez ohledu na to, jakou strategii zvolíte, měli byste jasně definovat rozsah migrace, co se bude migrovat a jestli budete migrovat přírůstkově nebo všechny najednou. Jedním z příkladů přírůstkové migrace je nejprve migrace datových tržítků a potom datový sklad. Tento přístup vám umožní zaměřit se na obchodní oblasti s vysokou prioritou a zároveň umožnit vašemu týmu, aby si postupně získával odborné znalosti, protože každé tržiště se migruje jednotlivě, a teprve potom migrovat samotný datový sklad.

Definování toho, co se má migrovat

Vytvořte inventář všeho, co je potřeba migrovat. To zahrnuje schémata, data, procesy ETL (kanály), autorizační oprávnění, uživatele, sémantické přístupové vrstvy nástrojů BI a analytické aplikace. Podrobné informace o tom, co je součástí migrace inventáře, najdete v jednotlivých článcích o migraci na nižší úrovni v této sérii. Odkazy na tyto odkazy jsou zobrazeny níže.

  • Aspekty migrace, návrhu a výkonu schématu
  • Migrace dat, zpracování ETL a načítání.
  • Přístup k zabezpečení a operacím datového skladu.
  • Migrace vizualizací a sestav.
  • Minimalizace dopadu problémů s SQL.
  • Nástroje třetích stran, které vám pomůžou s migrací datového skladu.

Pokud si nejste jisti nejlepším přístupem, proveďte testy v testovacím prostředí pro testování konceptu, abyste identifikovali optimální techniky. Další informace najdete v části věnované odstranění rizika projektu migrace datového skladu.

Řízení migrace

Migrace datového skladu do Azure Synapse zahrnuje úlohy, které je potřeba provést:

  • Místní, například export dat.
  • V síti, například přenos dat.
  • V cloudu Azure, jako je transformace dat, integrace a načítání.

Problémem je, že správa těchto úloh může být složitá, pokud se skripty a nástroje vyvíjejí, testují a spouštějí nezávisle v místním prostředí i prostředí Azure. Zvyšuje složitost zejména v případě, že správa verzí, správa testů a provádění migrace nejsou koordinovány.

Těmto složitostem byste se měli vyhnout a řídit je ze společného místa prostřednictvím úložiště správy zdrojového kódu, abyste mohli spravovat změny od vývoje k testování a produkčnímu prostředí. Provádění migrace bude zahrnovat úlohy, které je potřeba provést místně, v síti a v Azure. Vzhledem k tomu, že Azure Synapse je cílové prostředí, zjednodušuje řízení provádění migrace z Azure správu. Pomocí Azure Data Factory můžete vytvořit kanál řízení migrace, který bude řídit provádění místně i v Azure. Tím se zavádí automatizace a minimalizuje se chyby. Data Factory se stává nástrojem pro orchestraci migrace, nejen nástrojem pro integraci podnikových dat.

Mezi další možnosti řízení migrace, které jsou dostupné od partnerů Microsoftu běžících v Azure, patří nástroje pro automatizaci migrace datového skladu. Dodavatelé, jako jsou WhereScape a Attunity, například. Většina těchto nástrojů pro automatizaci je zaměřená na přístup k migraci metodou "lift and shift". I tak můžou existovat některé věci, které nemusí být těmito nástroji podporovány, například uložené procedury. Tyto produkty a několik dalších jsou podrobně popsané v samostatné příručce věnované nástrojům třetích stran, které vám pomůžou s migrací na Azure Synapse.

Testování migrace

První věc, kterou potřebujete k testování, je definovat řadu testů a sadu požadovaných výsledků pro každý test, který je potřeba spustit, aby se ověřil a naznačoval úspěch. Je důležité zajistit, aby se všechny aspekty testovaly a porovnávaly napříč vašimi stávajícími a migrovanými systémy, včetně:

  • Schéma
  • Datové typy převedené v případě potřeby
  • Použití uživatelem definovaného schématu v Azure Synapse k rozlišení mezi datovým skladem a tabulkami datových tržítků
  • Uživatelé
  • Role a přiřazení uživatelů k těmto rolím
  • Oprávnění zabezpečení přístupu k datům
  • Ochrana osobních údajů a dodržování předpisů
  • Oprávnění, která řídí možnosti správy
  • Kvalita a integrita dat
  • Zpracování ETL, které naplní Azure Synapse jak do datového skladu, tak z datového skladu do jakýchkoli datových tržišť, včetně testování
  • Všechny řádky jsou ve všech tabulkách včetně historie správné.
  • Pomalu se měnící zpracování dimenzí
  • Změna zpracování zachytávání dat
  • Výpočty a agregace využívající funkce, které se můžou v různých systémech lišit
  • Výsledky všech známých dotazů, sestav a řídicích panelů
  • Výkon a škálovatelnost
  • Analytické funkce
  • Náklady v novém prostředí s průběžným platbou

Co nejvíce automatizujte testování, aby každý test byl opakovatelný a umožnil konzistentní přístup k vyhodnocení výsledků. Pokud jsou sestavy a řídicí panely nekonzistentní, je při testování migrace užitečná možnost porovnávat rodokmen metadat v původních a migrovaných systémech, protože může zvýraznit rozdíly a určit, kde k nim došlo, když je není snadné zjistit.

Nejlepší způsob, jak to udělat bezpečně, je vytvořit role, přiřadit přístupová oprávnění k rolím a pak připojit uživatele k rolím. Pokud chcete získat přístup k nově migrovanému datovému skladu, nastavte automatizovaný proces pro vytváření nových uživatelů a přiřazování rolí. Stejným způsobem odeberte uživatele z rolí.

Oznamte přímou změnu všem uživatelům, aby věděli, co se mění a co očekávat.

Zrušení rizika projektu migrace datového skladu

Dalším důležitým faktorem migrace datového skladu je snížení rizika projektu, aby se maximalizovala pravděpodobnost úspěchu. Pro odstranění rizika migrace datového skladu je možné provést několik věcí. Mezi ně patří:

  • Vytvoření testovacího prostředí pro testování konceptu, které vašemu týmu umožní vyzkoušet si věci, provádět testy, porozumět všem problémům a identifikovat opravy a optimalizace, které vám pomůžou ověřit přístupy k migraci, zlepšit výkon a snížit náklady. Pomáhá také stanovit způsoby automatizace úloh, používání předdefinovaných nástrojů a vytváření šablon k zachycení osvědčených postupů, učení se ze zkušeností a sledování získaných zkušeností. Je to neocenitelný způsob, jak zmírnit riziko a zvýšit šance na úspěch. Kromě toho můžete k testům přiřadit vlastníky, kteří zodpovídají za dosažení cílů a cílů migrace definovaných ve vaší strategii migrace.
  • Zaveďte virtualizaci dat mezi nástroji BI a datovým skladem a datovými tržištěmi. Zavedení transparentnosti uživatelů pomocí virtualizace dat ke snížení rizika při migraci datového skladu a skrytí migrace před uživateli pomocí nástrojů BI pro virtualizaci dat, jak je znázorněno na následujícím diagramu.

Diagram migrace datového skladu

Účelem je přerušit závislost mezi firemními uživateli pomocí samoobslužných nástrojů BI a fyzického schématu podkladového datového skladu a datových tržišti, které se migrují. Zavedením virtualizace dat mohou být jakékoli změny schématu provedené během migrace datového skladu a datového tržiště do Azure Synapse (například kvůli optimalizaci výkonu) skryty před firemními uživateli, protože přistupují pouze k virtuálním tabulkám ve vrstvě virtualizace dat. Pokud je potřeba strukturální změna, je potřeba změnit pouze mapování mezi datovým skladem nebo datovými tržišti a všemi virtuálními tabulkami, aby uživatelé o těchto změnách nevěděli a o migraci nevěděli.

  • Hledejte archivovat všechny existující tabulky, které se před migrací datového skladu nikdy nepoužívaly, protože migrace tabulek, které se nepoužívají, nemá žádný smysl. Jedním z možných způsobů, jak to udělat, je archivace nepoužívaných dat do úložiště objektů blob v Azure nebo Azure Data Lake Storage a vytvoření externích tabulek v Azure Synapse na tato data, aby byla stále online.
  • Zvažte možnost zavedení virtuálního počítače v Azure s vývojovou verzí (obvykle bezplatnou) stávající starší verze DBMS datového skladu běžící na tomto virtuálním počítači. To vám umožní rychle přesunout existující schéma datového skladu do virtuálního počítače, které ho přesunou do Azure Synapse, zatímco budou plně pracovat v cloudu Azure.
  • Definujte pořadí migrace a závislosti.
  • Zajistěte, aby týmy infrastruktury a provozu byly co nejdříve připravené na migraci vašich dat do projektu migrace.
  • Identifikujte rozdíly ve funkcích DBMS a v tom, kde by se proprietární obchodní logika mohla stát problémem. Například použití uložených procedur ke zpracování ELT pravděpodobně nebude snadné a nebude obsahovat žádný rodokmen metadat, protože transformace jsou uložené v kódu.
  • Zvažte strategii migrace datových tržišti, po které následuje datový sklad, který je zdrojem datových tržišti. Důvodem je to, že umožňuje přírůstkovou migraci, usnadňuje její správu a je možné určit prioritu migrace na základě obchodních potřeb.
  • Zvažte možnost použití virtualizace dat ke zjednodušení stávající architektury datového skladu před migrací, například nahrazení datových tržišti virtuálními datovými tržišti, abyste před migrací mohli eliminovat fyzická úložiště dat a úlohy ETL pro datová tržiště bez ztráty funkčnosti. Tím by se snížil počet migrovaných úložišť dat, snížil počet kopií dat, snížily by se celkové náklady na vlastnictví a zlepšila se flexibilita. To vyžaduje přechod z fyzických na virtuální datová tržiště před migrací datového skladu. V mnoha ohledech můžete tento krok před migrací považovat za krok modernizace datového skladu.

Další kroky

Další informace o migracích datového skladu najdete na workshopu o modernizaci virtuálního cloudového datového skladu v Azure od společnosti Informatica.