Beskriva dataintegreringsmönster

Slutförd

Microsoft Azure tillhandahåller en mängd olika dataplattformstjänster som gör att du kan utföra olika typer av analyser. Oavsett om det är en beskrivande analyslösning i ett informationslager, via förutsägelseanalys i HDInsight, Azure Databricks eller Machine Learning Services. Det finns ett behov av att en tjänst hanterar den viktiga aspekten av dataintegrering.

Dataintegrering omfattar först insamling av data från en eller flera källor. Alternativt innehåller den vanligtvis en process där data kan rensas och transformeras, eller kanske utökas med ytterligare data och förberedas. Slutligen lagras de sammanslagade data i en dataplattformstjänst som hanterar den typ av analys som du vill utföra. Den här processen kan automatiseras av Azure Data Factory i ett mönster som kallas ETL (Extract, Transform and Load).

Extrahera

Under extraheringen definierar datateknikern data och dess källa:

  • Definiera datakällan: Identifiera källinformation, till exempel resursgrupp, prenumeration och identitetsinformation, till exempel en nyckel eller hemlighet.

  • Definiera data: Identifiera de data som ska extraheras. Definiera data med en databasfråga, en uppsättning filer eller ett Azure Blob Storage-namn för bloblagring.

Transformering

  • Definiera datatransformeringen: Datatransformeringsåtgärder kan omfatta att dela, kombinera, härleda, lägga till, ta bort eller pivotera kolumner. Mappa fält mellan datakällan och datamålet. Du kan också behöva aggregera eller sammanslå.

Inläsning

  • Definiera målet: Under en inläsning kan många Azure-mål acceptera data som är formaterade som en JavaScript Object Notation (JSON), fil eller blob. Du kan behöva skriva kod för interaktionen med olika program-API:er.

    Azure Data Factory har inbyggt stöd för Azure Functions. Dessutom finns stöd för många programmeringsspråk som Node.js, .NET, Python och Java. Även om XML (Extensible Markup Language) var vanligt tidigare så har de flesta system nu migrerat till JSON på grund av flexibiliteten som halvstrukturerad datatyp.

  • Starta jobbet: Testa ETL-jobbet i en utvecklings- eller testmiljö. Migrera sedan jobbet till en produktionsmiljö för inläsning i produktionssystemet.

  • Övervaka jobbet: ETL-åtgärder kan omfatta många komplexa processer. Skapa ett proaktivt och reaktivt övervakningssystem som ger information om något går fel. Konfigurera loggning enligt den teknik som ska användas.

ETL-verktyg

Som datatekniker finns det flera tillgängliga verktyg för ETL. Azure Data Factory tillhandahåller nästan 100 företagsanslutningar och robusta resurser för både kodfria och kodbaserade användare för att uppfylla sina dataförflyttnings- och transformeringsbehov.

Utveckling från ETL

Azure har öppnat dörren för ny teknik som kan hantera ostrukturerade data i obegränsad skala. Den här ändringen har flyttat paradigmet för inläsning och transformering av data från ETL till ELT (extrahering, inläsning och transformering).

Fördelen med ELT är att du kan lagra data i det ursprungliga formatet, oavsett om det är JSON, XML, PDF eller bilder. I ELT definierar du datastrukturen under transformeringsfasen, så att du kan använda källdata i flera olika underordnade system.

I en ELT-process extraheras data och läses in i det ursprungliga formatet. Den här ändringen gör att det tar mindre tid att läsa in data i ett målsystem. Ändringen leder även till färre resurskonflikter vid datakällorna.

Stegen i en ELT-process är samma som i en ETL-process. De utförs bara i en annan ordning.

En annan process som liknar ELT är den med extrahering, inläsning, transformering och inläsning (ELTL). Skillnaden med ELTL är att det görs en sista inläsning i ett målsystem.

Det finns två vanliga typer av dataintegreringsmönster som kan stödjas av Azure Data Factory.

Arbetsbelastningar för moderna informationslager:

Ett modernt informationslager är ett centraliserat datalager som tillhandahåller beskrivande analys- och beslutsstödtjänster i hela företaget med hjälp av strukturerade, ostrukturerade eller strömmande datakällor. Data flödar till lagret från flera transaktionssystem, relationsdatabaser och andra datakällor regelbundet. Lagrade data används för historik- och trendanalysrapportering. Datalagret fungerar som central lagringsplats för många ämnesområden och innehåller den ”enda sanningskällan”.

Azure Data Factory används vanligtvis för att automatisera processen med att extrahera, transformera och läsa in data via en batchprocess mot strukturerade och ostrukturerade datakällor.

Avancerade analytiska arbetsbelastningar

Du kan utföra avancerad analys i form av förutsägande eller förebyggande analys med hjälp av en rad Azure-dataplattformstjänster. Azure Data Factory tillhandahåller integrering från källsystem till ett Data Lake-lager och kan initiera beräkningsresurser som Azure Databricks eller HDInsight för att använda data för att utföra det avancerade analysarbetet