Sdílet prostřednictvím


Návrh a výkon pro migrace Teradata

Tento článek je součástí sedmidílné série, která obsahuje pokyny k migraci z Teradata do Azure Synapse Analytics. Tento článek se zaměřuje na osvědčené postupy pro návrh a výkon.

Přehled

Mnoho stávajících uživatelů systémů datového skladu Teradata chce využívat inovace poskytované moderními cloudovými prostředími. Cloudová prostředí typu infrastruktura jako služba (IaaS) a platforma jako služba (PaaS) umožňují delegovat úlohy, jako je údržba infrastruktury a vývoj platforem, na poskytovatele cloudu.

Tip

Více než jen databáze – prostředí Azure zahrnuje komplexní sadu funkcí a nástrojů.

I když teradata a Azure Synapse Analytics jsou databáze SQL, které používají techniky MPP (Massively Parallel Processing) k dosažení vysokého výkonu dotazů na mimořádně velkých objemech dat, existují některé základní rozdíly v přístupu:

  • Starší systémy Teradata se často instalují místně a používají proprietární hardware, zatímco Azure Synapse je cloudový a používá Azure Storage a výpočetní prostředky.

  • Vzhledem k tomu, že úložiště a výpočetní prostředky jsou v prostředí Azure oddělené a mají možnost elastického škálování, je možné tyto prostředky nezávisle škálovat směrem nahoru nebo dolů.

  • Podle potřeby můžete azure Synapse pozastavit nebo změnit jeho velikost, abyste snížili využití prostředků a náklady.

  • Upgrade konfigurace Teradata je hlavní úlohou zahrnující další fyzický hardware a potenciálně zdlouhavou rekonfiguraci nebo opětovné načtení databáze.

Microsoft Azure je globálně dostupné, vysoce zabezpečené a škálovatelné cloudové prostředí, které zahrnuje Azure Synapse a ekosystém podpůrných nástrojů a možností. Další diagram shrnuje ekosystém Azure Synapse.

Graf znázorňující ekosystém Azure Synapse podpůrných nástrojů a možností

Azure Synapse poskytuje nejlepší výkon relačních databází pomocí technik, jako je MPP a více úrovní automatizovaného ukládání do mezipaměti pro často používaná data. Výsledky těchto technik si můžete prohlédnout v nezávislých srovnávacích testech, jako je například nedávné spuštění GigaOm, které porovnává Azure Synapse s dalšími oblíbenými nabídkami cloudového datového skladu. Zákazníci, kteří migrují do prostředí Azure Synapse, vidí mnoho výhod, mezi které patří:

  • Vyšší výkon a cena/výkon.

  • Zvýšená flexibilita a kratší doba na hodnotu.

  • Rychlejší nasazení serveru a vývoj aplikací

  • Elastická škálovatelnost – platíte jenom za skutečné využití.

  • Vylepšené zabezpečení a dodržování předpisů

  • Snížení nákladů na úložiště a zotavení po havárii

  • Nižší celkové celkové náklady na vlastnictví, lepší řízení nákladů a zjednodušené provozní výdaje (OPEX).

Pokud chcete tyto výhody maximalizovat, migrujte nová nebo existující data a aplikace na platformu Azure Synapse. V mnoha organizacích migrace zahrnuje přesun existujícího datového skladu ze starší místní platformy, jako je Teradata, do Azure Synapse. Proces migrace na vysoké úrovni zahrnuje tyto kroky:

    Příprava 🡆

  • Definujte rozsah – co se má migrovat.

  • Sestavte inventář dat a procesů pro migraci.

  • Definujte změny datového modelu (pokud existuje).

  • Definujte mechanismus extrakce zdrojových dat.

  • Identifikujte vhodné nástroje a funkce Azure a třetích stran, které se mají použít.

  • Vytrénujte personál na nové platformě.

  • Nastavte cílovou platformu Azure.

    Migrace 🡆

  • Začněte malé a jednoduché.

  • Automatizovat všude, kde je to možné.

  • Využijte integrované nástroje a funkce Azure ke snížení úsilí o migraci.

  • Migrujte metadata pro tabulky a zobrazení.

  • Migrujte historická data, která se mají udržovat.

  • Migrace nebo refaktoring uložených procedur a obchodních procesů

  • Migrace nebo refaktoring procesů přírůstkového načítání ETL/ELT

    Po migraci

  • Monitorujte a dokumentujte všechny fáze procesu.

  • Využijte získané zkušenosti k vytvoření šablony pro budoucí migrace.

  • V případě potřeby znovu zakažte datový model (s využitím nového výkonu a škálovatelnosti platformy).

  • Otestujte aplikace a nástroje pro dotazy.

  • Proveďte srovnávací testy a optimalizujte výkon dotazů.

Tento článek obsahuje obecné informace a pokyny pro optimalizaci výkonu při migraci datového skladu z existujícího prostředí Netezza do Azure Synapse. Cílem optimalizace výkonu je dosáhnout stejného nebo lepšího výkonu datového skladu v Azure Synapse po migraci schématu.

Aspekty návrhu

Rozsah migrace

Při přípravě migrace z prostředí Teradata zvažte následující volby migrace.

Volba úlohy pro počáteční migraci

Starší prostředí Teradata se obvykle v průběhu času vyvíjela tak, aby zahrnovala více předmětných oblastí a smíšených úloh. Při rozhodování o tom, kde začít s projektem migrace, vyberte oblast, ve které budete moct:

  • Prokažte životaschopnost migrace do Azure Synapse tím, že rychle doručíte výhody nového prostředí.

  • Umožňuje interním technickým pracovníkům získat relevantní zkušenosti s procesy a nástroji, které budou používat při migraci jiných oblastí.

  • Vytvořte šablonu pro další migrace specifické pro zdrojové prostředí Teradata a aktuální nástroje a procesy, které už existují.

Vhodným kandidátem na počáteční migraci z teradata podpora prostředí předchozí položky a:

  • Implementuje úlohu BI/Analytics místo úlohy online zpracování transakcí (OLTP).

  • Má datový model, například hvězdicové nebo sněhové vločkové schéma, které je možné migrovat s minimálními úpravami.

Tip

Vytvořte inventář objektů, které je potřeba migrovat, a zdokumentujte proces migrace.

Objemmich dat by měl být dostatečně velký, aby ukázal možnosti a výhody prostředí Azure Synapse, ale neměl příliš velký, aby bylo možné rychle předvést hodnotu. Velikost v rozsahu 1–10 terabajtů je typická.

U vašeho počátečního projektu migrace minimalizujte riziko, úsilí a dobu migrace, abyste mohli rychle zobrazit výhody cloudového prostředí Azure, omezit rozsah migrace jenom na datová tržiště, jako je například část databáze OLAP v datovém skladu Teradata. Přístupy k migraci metodou "lift and shift" a fázované migrace omezují rozsah počáteční migrace jenom na datová tržiště a nezabývá se širšími aspekty migrace, jako je migrace ETL a historická migrace dat. Tyto aspekty však můžete řešit v pozdějších fázích projektu, jakmile se migrovaná vrstva datového tržiště znovu naplní daty a požadovanými procesy sestavení.

Migrace metodou "lift and shift" vs. fázovaný přístup

Obecně platí, že existují dva typy migrace bez ohledu na účel a rozsah plánované migrace: metodu "lift and shift", jak je, a fázovaný přístup, který zahrnuje změny.

Metoda „lift and shift“

Při migraci metodou "lift and shift" se stávající datový model, jako je hvězdicové schéma, migruje na novou platformu Azure Synapse beze změny. Tento přístup minimalizuje riziko a dobu migrace tím, že snižuje práci potřebnou k realizaci výhod přechodu do cloudového prostředí Azure. Migrace metodou "lift and shift" je vhodná pro tyto scénáře:

  • Máte existující prostředí Teradata s jedním datovým tržištěm, které se má migrovat, nebo
  • Máte existující prostředí Teradata s daty, která už jsou v dobře navrženém hvězdicovém nebo sněhovém schématu, nebo
  • Jste pod časovými a nákladovými tlaky, abyste přešli do moderního cloudového prostředí.

Tip

Metodou "lift and shift" je dobrý výchozí bod, i když následné fáze implementují změny datového modelu.

Fázovaný přístup, který zahrnuje změny

Pokud se starší datový sklad vyvinul po dlouhou dobu, budete ho možná muset znovu vytvořit, aby se zachovaly požadované úrovně výkonu. Možná budete muset znovu zapracovat na podporu nových dat, jako jsou streamy Internetu věcí (IoT). V rámci procesu opětovného přípravy migrujte do Azure Synapse, abyste získali výhody škálovatelného cloudového prostředí. Migrace může také zahrnovat změnu v podkladovém datovém modelu, například přechod z modelu Inmon do trezoru dat.

Microsoft doporučuje přesunout stávající datový model tak, jak je, do Azure (volitelně pomocí instance Teradata virtuálního počítače v Azure) a využít výkon a flexibilitu prostředí Azure k použití změn v opětovném inženýrství. Díky tomu můžete pomocí funkcí Azure provádět změny, aniž by to mělo vliv na stávající zdrojový systém.

Použití instance Teradata virtuálního počítače Azure v rámci migrace

Při migraci z místního prostředí Teradata můžete využít cloudové úložiště a elastickou škálovatelnost v Azure k vytvoření instance Teradata v rámci virtuálního počítače. Tento přístup kompletuje instanci Teradata s cílovým prostředím Azure Synapse. K efektivnímu přesunu podmnožin migrovaných tabulek Teradata do instance virtuálního počítače můžete použít standardní nástroje Teradata, jako je teradata Parallel Data Transporter. Všechny další úlohy migrace pak můžou probíhat v rámci prostředí Azure. Tento přístup má několik výhod:

  • Po počáteční replikaci dat nemá zdrojový systém vliv na úlohy migrace.

  • Známá rozhraní, nástroje a nástroje Teradata jsou k dispozici v prostředí Azure.

  • Prostředí Azure se chytá ke všem potenciálním problémům s dostupností šířky pásma sítě mezi místním zdrojovým systémem a cloudovým cílovým systémem.

  • Nástroje, jako je Azure Data Factory, můžou volat nástroje, jako je Teradata Parallel Transporter, a efektivně a rychle migrovat data.

  • Proces migrace můžete orchestrovat a řídit zcela v rámci prostředí Azure.

Tip

Pomocí virtuálních počítačů Azure vytvořte dočasnou instanci Teradata, abyste urychlili migraci a minimalizovali dopad na zdrojový systém.

Použití služby Azure Data Factory k implementaci migrace řízené metadaty

Proces migrace můžete automatizovat a orchestrovat pomocí funkcí prostředí Azure. Tento přístup minimalizuje dosažení výkonu v existujícím prostředí Netezza, které už může být v blízkosti kapacity.

Azure Data Factory je cloudová služba pro integraci dat, která podporuje vytváření pracovních postupů řízených daty v cloudu, které orchestrují a automatizují přesun a transformaci dat. Data Factory můžete použít k vytváření a plánování pracovních postupů řízených daty (kanály), které ingestují data z různorodých úložišť dat. Data Factory může zpracovávat a transformovat data pomocí výpočetních služeb, jako jsou Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics a Azure Machine Learning.

Pokud plánujete ke správě procesu migrace použít zařízení služby Data Factory, vytvořte metadata, která uvádějí všechny tabulky dat, které se mají migrovat, a jejich umístění.

Rozdíly v návrhu mezi Teradata a Azure Synapse

Jak už bylo zmíněno dříve, existují některé základní rozdíly v přístupu mezi databázemi Teradata a Azure Synapse Analytics a tyto rozdíly jsou popsány dále.

Více databází vs. jednoúčelová databáze a schémata

Prostředí Teradata často obsahuje více samostatných databází. Například mohou existovat samostatné databáze pro: příjem dat a pracovní tabulky, základní tabulky skladu a datová tržiště (někdy označované jako sémantická vrstva). Procesy kanálů ETL nebo ELT můžou implementovat propojení mezi databázemi a přesouvat data mezi samostatnými databázemi.

Prostředí Azure Synapse naproti tomu obsahuje jednu databázi a používá schémata k oddělení tabulek do logicky samostatných skupin. Doporučujeme použít řadu schémat v cílové databázi Azure Synapse k napodobení samostatných databází migrovaných z prostředí Teradata. Pokud už prostředí Teradata používá schémata, budete možná muset při přesunutí existujících tabulek a zobrazení Teradata do nového prostředí použít novou konvenci vytváření názvů. Můžete například zřetězení existujícího schématu Teradata a názvů tabulek do nového názvu tabulky Azure Synapse a pomocí názvů schémat v novém prostředí zachovat původní samostatné názvy databází. Pokud má pojmenování konsolidace schématu tečky, může dojít k problémům se službou Azure Synapse Spark. I když můžete pomocí zobrazení SQL nad podkladovými tabulkami udržovat logické struktury, existuje potenciální nevýhoda tohoto přístupu:

  • Zobrazení v Azure Synapse jsou jen pro čtení, takže všechny aktualizace dat musí probíhat v podkladových základních tabulkách.

  • Možná už existuje jedna nebo více vrstev zobrazení a přidání další vrstvy zobrazení může ovlivnit výkon a podporu, protože vnořená zobrazení se obtížně řeší.

Tip

Zkombinujte více databází do jedné databáze v rámci Azure Synapse a použijte názvy schémat k logickému oddělení tabulek.

Aspekty tabulek

Když migrujete tabulky mezi různými prostředími, obvykle pouze nezpracovaná data a metadata, která je popisují fyzicky migrovat. Jiné databázové prvky ze zdrojového systému, například indexy, se obvykle nemigrují, protože v novém prostředí můžou být zbytečné nebo implementované jinak. Optimalizace výkonu ve zdrojovém prostředí, například indexy, označují, kde můžete v novém prostředí přidat optimalizaci výkonu. Pokud má například tabulka ve zdrojovém prostředí Teradata ne jedinečný sekundární index (NUSI), který naznačuje, že by se měl vytvořit neskupený index v rámci Azure Synapse. Jiné nativní techniky optimalizace výkonu, jako je replikace tabulek, můžou být vhodnější než přímé vytvoření indexu podobného typu.

Tip

Existující indexy označují kandidáty pro indexování v migrovaném skladu.

Vysoká dostupnost databáze

Teradata podporuje replikaci dat mezi uzly prostřednictvím FALLBACK možnosti, která replikuje řádky tabulky, které jsou fyzicky umístěné na daném uzlu, do jiného uzlu v systému. Tento přístup zaručuje, že se data neztratí, pokud dojde k selhání uzlu a poskytne základ pro scénáře převzetí služeb při selhání.

Cílem architektury vysoké dostupnosti ve službě Azure Synapse Analytics je zaručit, že vaše databáze běží 99,9 % času, aniž byste se museli starat o dopad operací údržby a výpadků. Další informace o sla najdete ve sla pro Azure Synapse Analytics. Azure automaticky zpracovává důležité úlohy údržby, jako jsou opravy, zálohy a upgrady Windows a SQL. Azure také automaticky zpracovává neplánované události, jako jsou selhání základního hardwaru, softwaru nebo sítě.

Úložiště dat ve službě Azure Synapse se automaticky zálohuje pomocí snímků. Tyto snímky jsou integrovanou funkcí služby, která vytváří body obnovení. Nemusíte tuto funkci povolovat. Uživatelé momentálně nemůžou odstranit automatické body obnovení, které služba používá k údržbě smluv o úrovni služeb (SLA) pro obnovení.

Vyhrazený fond SQL Azure Synapse po celý den vytváří snímky datového skladu a vytváří body obnovení, které jsou k dispozici sedm dní. Tuto dobu uchovávání nelze změnit. Azure Synapse podporuje 8hodinový cíl bodu obnovení (RPO). Datový sklad v primární oblasti můžete obnovit z libovolného snímku pořízeného za posledních 7 dnů. Pokud potřebujete podrobnější zálohy, můžete použít jinou uživatelsky definovanou možnost.

Nepodporované typy tabulek Teradata

Teradata podporuje speciální typy tabulek pro časovou řadu a časová data. Syntaxe a některé funkce pro tyto typy tabulek se přímo nepodporují v Azure Synapse. Data ale můžete migrovat do standardní tabulky ve službě Azure Synapse tak, že namapujete příslušné datové typy a indexujete nebo rozdělíte sloupec data a času.

Tip

Standardní tabulky v Azure Synapse můžou podporovat migrovaná časová řada Teradata a dočasná data.

Teradata implementuje funkci dočasného dotazu pomocí přepsání dotazu pro přidání dalších filtrů v rámci dočasného dotazu, aby se omezil příslušný rozsah kalendářních dat. Pokud plánujete migrovat tuto funkci ze zdrojového prostředí Teradata, přidejte do příslušných dočasných dotazů další filtrování.

Azure podpora prostředí s přehledy časových řad pro komplexní analýzy dat časových řad ve velkém měřítku. Tato funkce je zaměřená na aplikace pro analýzu dat IoT.

Rozdíly v syntaxi SQL DML

Mezi jazykem DML (Teradata SQL a Azure Synapse T-SQL) existují rozdíly v syntaxi jazyka DML (Sql Data Manipulat Language):

  • QUALIFY: Teradata podporuje QUALIFY operátor. Příklad:

    SELECT col1
    FROM tab1
    WHERE col1='XYZ'
    QUALIFY ROW_NUMBER () OVER (PARTITION by
    col1 ORDER BY col1) = 1;
    

    Ekvivalentní syntaxe Azure Synapse je:

    SELECT * FROM (
    SELECT col1, ROW_NUMBER () OVER (PARTITION by col1 ORDER BY col1) rn
    FROM tab1 WHERE col1='XYZ'
    ) WHERE rn = 1;
    
  • Aritmetika data: Azure Synapse má operátory, jako DATEADD jsou a DATEDIFF, které lze použít u DATE nebo DATETIME polích. Teradata podporuje přímé odčítání dat, například SELECT DATE1 - DATE2 FROM...

  • GROUP BY: Pro řadový GROUP BY název explicitně zadejte název sloupce T-SQL.

  • LIKE ANY: Teradata podporuje LIKE ANY syntaxi, například:

    SELECT * FROM CUSTOMER
    WHERE POSTCODE LIKE ANY
    ('CV1%', 'CV2%', 'CV3%');
    

    Ekvivalentem syntaxe Azure Synapse je:

    SELECT * FROM CUSTOMER
    WHERE
    (POSTCODE LIKE 'CV1%') OR (POSTCODE LIKE 'CV2%') OR (POSTCODE LIKE 'CV3%');
    
  • V závislosti na nastavení systému můžou být porovnávání znaků v Teradata ve výchozím nastavení nerozlišující malá a velká písmena. V Azure Synapse se při porovnávání znaků vždy rozlišují malá a velká písmena.

Funkce, uložené procedury, triggery a sekvence

Při migraci datového skladu z vyspělého prostředí, jako je Teradata, budete pravděpodobně muset migrovat jiné prvky než jednoduché tabulky a zobrazení. Mezi příklady patří funkce, uložené procedury, triggery a sekvence. Zkontrolujte, jestli nástroje v prostředí Azure můžou nahradit funkce funkcí, uložených procedur a sekvencí, protože je obvykle efektivnější používat integrované nástroje Azure než překódovat tyto prvky pro Azure Synapse.

V rámci přípravné fáze vytvořte inventář objektů, které je potřeba migrovat, definujte metodu pro jejich zpracování a přidělte příslušné prostředky v plánu migrace.

Partneři pro integraci dat nabízejí nástroje a služby, které mohou automatizovat migraci funkcí, uložených procedur a sekvencí.

Následující části dále popisují migraci funkcí, uložených procedur a sekvencí.

Funkce

Stejně jako u většiny databázových produktů teradata podporuje systémové a uživatelem definované funkce v rámci implementace SQL. Při migraci starší verze databázové platformy do Azure Synapse je obvykle možné migrovat běžné systémové funkce beze změny. Některé systémové funkce můžou mít trochu odlišnou syntaxi, ale všechny požadované změny je možné automatizovat.

U systémových funkcí Teradata nebo libovolných uživatelem definovaných funkcí, které nemají v Azure Synapse žádné ekvivalenty, překódujte tyto funkce pomocí cílového jazyka prostředí. Azure Synapse používá jazyk Transact-SQL k implementaci uživatelem definovaných funkcí.

Uložené procedury

Většina moderních databázových produktů podporuje ukládání procedur v databázi. Teradata poskytuje pro tento účel jazyk SPL. Uložená procedura obvykle obsahuje příkazy SQL i procedurální logiku a vrací data nebo stav.

Azure Synapse podporuje uložené procedury pomocí T-SQL, takže je potřeba překódovat všechny migrované uložené procedury v daném jazyce.

Aktivační události

Azure Synapse nepodporuje vytváření triggerů, ale vytváření triggerů je možné implementovat pomocí azure Data Factory.

Sekvence

Azure Synapse zpracovává sekvence podobným způsobem jako Teradata a můžete implementovat sekvence pomocí sloupců IDENTITY nebo kódu SQL, který vygeneruje další pořadové číslo v řadě. Sekvence poskytuje jedinečné číselné hodnoty, které můžete použít jako náhradní hodnoty klíče pro primární klíče.

Extrakce metadat a dat z prostředí Teradata

Generování jazyka DDL (Data Definition Language)

Standard ANSI SQL definuje základní syntaxi příkazů DDL (Data Definition Language). Některé příkazy DDL, například CREATE TABLE a CREATE VIEW, jsou společné pro Teradata i Azure Synapse, ale také poskytují funkce specifické pro implementaci, jako je indexování, distribuce tabulek a možnosti dělení.

Existující teradata CREATE TABLE a CREATE VIEW skripty můžete upravit, abyste dosáhli ekvivalentních definic v Azure Synapse. K tomu možná budete muset použít upravené datové typy a odebrat nebo upravit klauzule specifické pro Teradata, například FALLBACK.

Všechny informace, které určují aktuální definice tabulek a zobrazení v existujícím prostředí Teradata, se však udržují v tabulkách systémového katalogu. Tyto tabulky jsou nejlepším zdrojem těchto informací, protože je zaručeno, že jsou aktuální a úplné. Uživatelsky udržovaná dokumentace nemusí být synchronizovaná s aktuálními definicemi tabulek.

V prostředí Teradata určují tabulky systémového katalogu aktuální tabulku a definici zobrazení. Na rozdíl od dokumentace spravované uživatelem se informace o katalogu systému vždy dokončí a synchronizují s aktuálními definicemi tabulek. Pomocí zobrazení do katalogu, jako DBC.ColumnsVje například , můžete získat přístup k informacím o systémovém katalogu a vygenerovat CREATE TABLE příkazy DDL, které vytvářejí ekvivalentní tabulky v Azure Synapse.

Tip

Pomocí existujících metadat Teradata můžete automatizovat generování CREATE TABLE a CREATE VIEW DDL pro Azure Synapse.

K dosažení podobných výsledků můžete také použít nástroje pro migraci a ETL třetích stran , které zpracovávají informace o katalogu systémů.

Extrakce dat z Teradata

Nezpracovaná data tabulky z tabulek Teradata můžete extrahovat do plochých souborů s oddělovači, jako jsou soubory CSV, pomocí standardních nástrojů Teradata, jako jsou základní dotazy Teradata (BTEQ), Teradata FastExport nebo Teradata Parallel Transporter (TPT). Pomocí TPT můžete co nejefektivněji extrahovat data tabulky. TpT používá k dosažení nejvyšší propustnosti několik paralelních datových proudů FastExport.

Tip

Pro nejúčinnější extrakci dat použijte paralelní transporter Teradata.

Volání TPT přímo ze služby Azure Data Factory Tento přístup se doporučuje pro migraci dat místních instancí Teradata a instancí Teradata, které běží na virtuálním počítači v prostředí Azure.

Extrahované datové soubory by měly obsahovat text s oddělovači ve sloupci CSV, Optimalizovaný sloupcový řádek (ORC) nebo Parquet.

Další informace o migraci dat a ETL z prostředí Teradata najdete v tématu Migrace dat, ETL a načtení pro migrace Teradata.

Doporučení k výkonu pro migrace Teradata

Cílem optimalizace výkonu je po migraci do Azure Synapse stejný nebo lepší výkon datového skladu.

Tip

Na začátku migrace upřednostňujte znalosti možností ladění v Azure Synapse.

Rozdíly v přístupu ladění výkonu

Tato část popisuje rozdíly implementace optimalizace výkonu nízké úrovně mezi Teradata a Azure Synapse.

Možnosti distribuce dat

Kvůli výkonu byla služba Azure Synapse navržena s architekturou s více uzly a používá paralelní zpracování. Pokud chcete optimalizovat výkon jednotlivých tabulek v Azure Synapse, můžete definovat možnost distribuce dat v CREATE TABLE příkazech pomocí příkazu DISTRIBUTION . Můžete například zadat tabulku distribuovanou hodnotou hash, která distribuuje řádky tabulky mezi výpočetní uzly pomocí deterministické hashové funkce. Cílem je snížit objem dat přesunutých mezi uzly zpracování při provádění dotazu.

V případě velkých tabulek až velkých spojení mezi tabulkami se hodnota hash distribuuje jednou nebo ideálně obě tabulky na jednom ze sloupců spojení, které mají širokou škálu hodnot, které pomáhají zajistit rovnoměrnou distribuci. Zpracování spojení proveďte místně, protože řádky dat, které budou spojeny, jsou kompletovány na stejném uzlu zpracování.

Azure Synapse podporuje také místní spojení mezi malou tabulkou a velkou tabulkou prostřednictvím replikace malých tabulek. Představte si například malou tabulku dimenzí a velkou tabulku faktů v rámci modelu hvězdicového schématu. Azure Synapse může replikovat menší tabulku dimenzí napříč všemi uzly, aby se zajistilo, že hodnota jakéhokoli spojovacího klíče pro velkou tabulku má odpovídající místně dostupný řádek dimenze. Režie replikace tabulky dimenzí je relativně nízká pro malou tabulku dimenzí. U velkých tabulek dimenzí je vhodnější přístup k distribuci hodnot hash. Další informace o možnostech distribuce dat najdete v pokynech k návrhu pro použití replikovaných tabulek a pokynů k návrhu distribuovaných tabulek.

Indexování dat

Azure Synapse podporuje několik možností indexování definovaných uživatelem, které se liší od možností indexování implementovaných v Teradata. Další informace o různých možnostech indexování v Azure Synapse najdete v tématu Indexy vyhrazených tabulek fondu SQL.

Existující indexy ve zdrojovém prostředí Teradata poskytují užitečnou informaci o využití dat a kandidátských sloupcích pro indexování v prostředí Azure Synapse.

Dělení dat

V podnikovém datovém skladu můžou tabulky faktů obsahovat miliardy řádků. Dělení optimalizuje údržbu a výkon dotazů těchto tabulek jejich rozdělením do samostatných částí, aby se snížil objem zpracovávaných dat. V Azure Synapse příkaz CREATE TABLE definuje specifikaci dělení tabulky. Pouze velmi velké tabulky oddílů a ujistěte se, že každý oddíl obsahuje alespoň 60 milionů řádků.

Pro dělení můžete použít pouze jedno pole na tabulku. Toto pole je často pole kalendářního data, protože mnoho dotazů se filtruje podle data nebo rozsahu dat. Dělení tabulky je možné změnit po počátečním načtení pomocí CREATE TABLE AS příkazu (CTAS) k opětovnému vytvoření tabulky s novou distribucí. Podrobnou diskuzi o dělení ve službě Azure Synapse najdete v tématu Dělení tabulek ve vyhrazeném fondu SQL.

Statistiky tabulek dat

Statistiky tabulek dat byste měli zajistit tak, že sestavíte krok statistiky pro úlohy ETL/ELT.

PolyBase nebo COPY INTO pro načítání dat

PolyBase podporuje efektivní načítání velkých objemů dat do datového skladu pomocí paralelních načítání datových proudů. Další informace najdete v tématu Strategie načítání dat PolyBase.

FUNKCE COPY INTO také podporuje příjem dat s vysokou propustností a:

  • Načítání dat ze všech souborů ve složce a podsložkách

  • Načítání dat z více umístění ve stejném účtu úložiště Pomocí cest oddělených čárkami můžete zadat více umístění.

  • Azure Data Lake Storage (ADLS) a Azure Blob Storage

  • Formáty souborů CSV, PARQUET a ORC

Správa úloh

Spouštění smíšených úloh může představovat problémy s prostředky v zaneprázdněných systémech. Úspěšné schéma správy úloh efektivně spravuje prostředky, zajišťuje vysoce efektivní využití prostředků a maximalizuje návratnost investic (ROI). Klasifikace úloh, důležitost úloh a izolace úloh poskytují větší kontrolu nad tím, jak úlohy využívají systémové prostředky.

Průvodce správou úloh popisuje techniky analýzy úlohy, správu a monitorování důležitosti úloh a postup převodu třídy prostředků na skupinu úloh. Pomocí webu Azure Portal a dotazů T-SQL na zobrazení dynamické správy monitorujte úlohu, abyste zajistili efektivní využití příslušných prostředků.

Další kroky

Další informace o etL a načítání pro migraci Teradata najdete v dalším článku této série: Migrace dat, ETL a načítání pro migrace Teradata.