Dela via


Verktyg för migrering av Teradata-informationslager till Azure Synapse Analytics

Den här artikeln är del sex i en serie i sju delar som ger vägledning om hur du migrerar från Teradata till Azure Synapse Analytics. Fokus i den här artikeln är metodtips för Microsoft och verktyg från tredje part.

Migreringsverktyg för informationslager

Genom att migrera ditt befintliga informationslager till Azure Synapse kan du dra nytta av:

  • En globalt säker, skalbar analysdatabas med låg kostnad, molnbaserad och användningsbaserad analysdatabas.

  • Det omfattande Microsoft-analysekosystem som finns i Azure. Det här ekosystemet består av tekniker som hjälper dig att modernisera ditt informationslager när det har migrerats och utöka dina analysfunktioner för att skapa ett nytt värde.

Flera verktyg från både Microsoft och tredjepartspartner kan hjälpa dig att migrera ditt befintliga informationslager till Azure Synapse. I den här artikeln beskrivs följande typer av verktyg:

  • Migreringsverktyg för Microsoft-data och databaser.

  • Automatiseringsverktyg från tredje part för att automatisera och dokumentera migreringen till Azure Synapse.

  • Migreringsverktyg från tredje part för migrering av schema och data till Azure Synapse.

  • Verktyg från tredje part för att överbrygga SQL-skillnaderna mellan ditt befintliga informationslager DBMS och Azure Synapse.

Microsofts datamigreringsverktyg

Microsoft erbjuder flera verktyg som hjälper dig att migrera ditt befintliga informationslager till Azure Synapse, till exempel:

  • Azure Data Factory.

  • Microsoft-tjänster för fysisk dataöverföring.

  • Microsoft-tjänster för datainmatning.

I nästa avsnitt beskrivs dessa verktyg mer detaljerat.

Microsoft Azure Data Factory

Data Factory är en fullständigt hanterad hybriddataintegreringstjänst med betala per användning för mycket skalbar ETL- och ELT-bearbetning. Den använder Apache Spark för att bearbeta och analysera data parallellt och i minnet för att maximera dataflödet.

Dricks

Med Data Factory kan du skapa skalbara dataintegreringspipelines utan kod.

Data Factory-anslutningsappar stöder anslutningar till externa datakällor och databaser och innehåller mallar för vanliga dataintegreringsuppgifter. Ett visuellt klientdelsbaserat webbläsarbaserat gränssnitt gör det möjligt för icke-programmerare att skapa och köra pipelines för att mata in, transformera och läsa in data. Mer erfarna programmerare kan använda anpassad kod, till exempel Python-program.

Dricks

Data Factory möjliggör samarbetsutveckling mellan affärs- och IT-proffs.

Data Factory är också ett orkestreringsverktyg och är det bästa Microsoft-verktyget för att automatisera migreringsprocessen från slutpunkt till slutpunkt. Automation minskar risken, ansträngningen och tiden för migrering och gör migreringsprocessen lätt repeterbar. Följande diagram visar ett mappningsdataflöde i Data Factory.

Skärmbild som visar ett exempel på ett Data Factory-mappningsdataflöde.

Nästa skärmbild visar ett dataflöde i Data Factory.

Skärmbild som visar ett exempel på Data Factory-dataflöden.

I Data Factory kan du utveckla enkla eller omfattande ETL- och ELT-processer utan kodning eller underhåll med bara några få klick. ETL/ELT-processer matar in, flyttar, förbereder, transformerar och bearbetar dina data. Du kan utforma och hantera schemaläggning och utlösare i Data Factory för att skapa en automatiserad dataintegrerings- och inläsningsmiljö. I Data Factory kan du definiera, hantera och schemalägga PolyBase massdatainläsningsprocesser.

Dricks

Data Factory innehåller verktyg som hjälper dig att migrera både dina data och hela informationslagret till Azure.

Du kan använda Data Factory för att implementera och hantera en hybridmiljö med lokala, molnbaserade, strömmande och SaaS-data på ett säkert och konsekvent sätt. SaaS-data kan komma från program som Salesforce.

Att omvandla dataflöden är en ny funktion i Data Factory. Den här funktionen öppnar Data Factory för företagsanvändare som visuellt vill upptäcka, utforska och förbereda data i stor skala utan att skriva kod. Wrangling dataflöden erbjuder självbetjäning av dataförberedelser, liknande Microsoft Excel, Power Query och Microsoft Power BI-dataflöden. Företagsanvändare kan förbereda och integrera data via ett kalkylbladsformat med alternativ för transformering i listrutan.

Data Factory är den rekommenderade metoden för att implementera dataintegrering och ETL/ELT-processer i Azure Synapse-miljön, särskilt om du vill omstrukturera befintliga äldre processer.

Microsoft-tjänster för fysisk dataöverföring

I följande avsnitt beskrivs en rad produkter och tjänster som Microsoft erbjuder för att hjälpa kunder med dataöverföring.

Azure ExpressRoute

Azure ExpressRoute skapar privata anslutningar mellan Azure-datacenter och infrastruktur lokalt eller i en samarbetsmiljö. ExpressRoute-anslutningar går inte via det offentliga Internet och ger mer tillförlitlighet, snabbare hastigheter och lägre svarstider än vanliga Internetanslutningar. I vissa fall får du betydande kostnadsfördelar genom att använda ExpressRoute-anslutningar för att överföra data mellan lokala system och Azure.

AzCopy

AzCopy är ett kommandoradsverktyg som kopierar filer till Azure Blob Storage via en vanlig Internet-, säker VPN- eller privat Expressroute-anslutning. I ett informationslagermigreringsprojekt kan du använda AzCopy för att ladda upp extraherade, komprimerade, avgränsade textfiler innan du läser in dem i Azure Synapse med hjälp av PolyBase. AzCopy kan ladda upp enskilda filer, filval eller filmappar. Om de exporterade filerna är i Parquet-format använder du en intern Parquet-läsare i stället.

Azure Data Box

Azure Data Box är en Microsoft-tjänst som ger dig en egen fysisk lagringsenhet som du kan kopiera migreringsdata till. Sedan skickar du enheten till ett Azure-datacenter för dataöverföring till molnlagring. Den här tjänsten kan vara kostnadseffektiv för stora mängder data, till exempel tiotals eller hundratals terabyte, eller där nätverksbandbredden inte är lättillgänglig. Azure Data Box används vanligtvis för en stor engångshistorik för datainläsning till Azure Synapse.

Azure Data Box Gateway

Azure Data Box Gateway är en virtualiserad molnlagringsgatewayenhet som finns lokalt och skickar dina avbildningar, media och andra data till Azure. Använd Data Box Gateway för engångsmigreringsuppgifter eller pågående inkrementella datauppladdningar.

Microsoft-tjänster för datainmatning

I följande avsnitt beskrivs de produkter och tjänster som Microsoft erbjuder för att hjälpa kunder med datainmatning.

COPY INTO

COPY INTO-instruktionen ger mest flexibilitet för datainmatning med högt dataflöde till Azure Synapse. Mer information om COPY INTO funktioner finns i COPY (Transact-SQL).

PolyBase

PolyBase är den snabbaste och mest skalbara metoden för massdatainläsning till Azure Synapse. PolyBase använder arkitekturen för massivt parallell bearbetning (MPP) i Azure Synapse för parallell inläsning av data för att uppnå det snabbaste dataflödet. PolyBase kan läsa data från flata filer i Azure Blob Storage eller direkt från externa datakällor och andra relationsdatabaser via anslutningsappar.

Dricks

PolyBase kan läsa in data parallellt från Azure Blob Storage till Azure Synapse.

PolyBase kan också läsa direkt från filer som komprimerats med gzip för att minska den fysiska datavolymen under en inläsningsprocess. PolyBase stöder populära dataformat som avgränsad text, ORC och Parquet.

Dricks

Du kan anropa PolyBase från Data Factory som en del av en migreringspipeline.

PolyBase är nära integrerat med Data Factory för att stödja snabb utveckling av ETL/ELT-processer för databelastning. Du kan schemalägga datainläsningsprocesser via ett visuellt användargränssnitt för högre produktivitet och färre fel än handskriven kod. Microsoft rekommenderar PolyBase för datainmatning i Azure Synapse, särskilt för datainmatning med stora volymer.

PolyBase använder CREATE TABLE AS eller INSERT...SELECT -instruktioner för att läsa in data. CREATE TABLE AS minimerar loggning för att uppnå det högsta dataflödet. Det mest effektiva indataformatet för datainläsning är komprimerade avgränsade textfiler. För maximalt dataflöde delar du upp stora indatafiler i flera mindre filer och läser in dem parallellt. För snabbast inläsning till en mellanlagringstabell definierar du måltabellen som HEAP typ och använder resursallokeringsdistribution.

PolyBase har vissa begränsningar, det kräver att dataradens längd är mindre än 1 megabyte och inte stöder kapslade format med fast bredd som JSON och XML.

Microsoft-partner för Teradata-migreringar

Microsoft-partner erbjuder verktyg, tjänster och expertis som hjälper dig att migrera din äldre lokala informationslagerplattform till Azure Synapse.

Nästa steg

Mer information om hur du implementerar moderna informationslager finns i nästa artikel i den här serien: Utöver Teradata-migrering implementerar du ett modernt informationslager i Microsoft Azure.