Datalandningszoner

Artikel
12/15/2024

Datalandningszoner är anslutna till din landningszon för datahantering via virtuellt nätverk peering eller privata slutpunkter. Varje datalandningszon anses vara en landningszon relaterad till Arkitektur för Azure-landningszoner.

Viktig

Innan du etablerar en datalandningszon kontrollerar du att din DevOps- och CI/CD-driftsmodell är på plats och att en landningszon för datahantering distribueras.

Varje datalandningszon har flera lager som möjliggör flexibilitet för tjänstdataintegreringar och dataprogram som den innehåller. Du kan distribuera en ny datalandningszon med en standarduppsättning tjänster som gör att datalandningszonen kan börja mata in och analysera data.

En typisk Azure-prenumeration som är associerad med en datalandningszon har följande struktur:

Lager	Krävs	Resursgrupper
Plattformens tjänstelager	Ja	Network Säkerhet
Core-tjänster	Ja	Storage Delade integreringskörningar Förvaltning extern lagring datainhämtning delade applikationer
dataapplikation	Valfri	dataprogram (1 eller mer)
Rapportering och visualisering	Valfri	Rapportering och visualisering

Not

Även om Core Services-lagret är markerat som obligatoriskt kan inte alla resursgrupper och tjänster som ingår i den här artikeln vara nödvändiga för din datalandningszon.

Arkitektur för datalandningszon

Arkitekturen för datalandningszoner illustrerar lagren, deras resursgrupper och de tjänster som varje resursgrupp innehåller. Arkitekturen ger en översikt över alla grupper och roller som är associerade med din datalandningszon och omfattningen av deras åtkomst till dina kontroll- och dataplan. Arkitekturen visar också hur varje lager överensstämmer med ansvarsområden för driftsmodellen.

Tips

Innan du distribuerar en datalandningszon måste du överväga antalet inledande datalandningszoner som du vill distribuera.

Plattformstjänster

Plattformstjänstlagret innehåller tjänster som krävs för att möjliggöra anslutning och observerbarhet till din datalandningszon inom ramen för analys i molnskala. I följande tabell visas de rekommenderade resursgrupperna.

Resursgrupp	Krävs	Beskrivning
`network-rg`	Ja	Nätverkande
`security-rg`	Ja	Säkerhet och övervakning

Nätverkande

Nätverksresursgruppen innehåller anslutningstjänster, inklusive Virtuella Azure-nätverk, Nätverkssäkerhetsgrupper (NSG) och routningstabeller. Alla dessa tjänster distribueras till en enda resursgrupp.

Det virtuella nätverket i din datalandningszon är automatiskt sammankopplat med det virtuella nätverket i din datahanteringslandningszon och det virtuella nätverket i din anslutningsprenumeration .

Säkerhet och övervakning

Resursgruppen för säkerhet och övervakning innehåller Azure Monitor- och Microsoft Defender för molnet för att samla in tjänsttelemetri, definiera övervakningskriterier och aviseringar samt tillämpa principer och genomsökning på tjänster.

Kärntjänster

Kärntjänstlagret innehåller grundläggande tjänster som krävs för att aktivera din datalandningszon inom ramen för analys i molnskala. I följande tabell visas de resursgrupper som tillhandahåller standardpaketet med tillgängliga tjänster i varje datalandningszon som du distribuerar.

Resursgrupp	Krävs	Beskrivning
`storage-rg`	Ja	Data lake-tjänster
`runtimes-rg`	Ja	Delade integreringskörningar
`mgmt-rg`	Ja	CI/CD-agenter
`external-data-rg`	Ja	Extern datalagring
`data-ingestion-rg`	Valfri	Delade datainmatningstjänster
`shared-applications-rg`	Valfri	Delade program (Synapse eller Databricks)

Lagring

Som du ser i diagrammet etableras tre Azure Data Lake Storage Gen2 konton i en resursgrupp för data lake-tjänster. Data som transformeras i olika steg sparas i en av datalandningszonens datasjöar. Data är tillgängliga för användning av dina analys-, datavetenskaps- och visualiseringsteam.

Datasjölager använder olika terminologi beroende på teknik och leverantör. Den här tabellen innehåller vägledning om hur du tillämpar villkor för analys i molnskala:

Analys i molnskala	Delta Lake	Andra termer	Beskrivning
Rå	Brons	Landning och överensstämmelse	Inmatningstabeller
Berikad	Silver	Standardiseringszon	Förfinade tabeller. Lagrade fullständiga entiteter, förbrukningsklara postuppsättningar från arkivhandlingssystem.
Kuraterad	Guld	Produktzon	Funktions- eller aggregerade tabeller. Primär zon för program, team och användare att använda dataprodukter.
Utveckling	--	Utvecklingszon	Plats för datatekniker och forskare, som består av både en sandbox-analys och en produktutvecklingszon.

Notis

I föregående diagram har varje datalandningszon tre datasjölagringskonton. Beroende på dina krav kan du dock välja att konsolidera dina råa, berikade och kuraterade lager till ett lagringskonto och underhålla ett annat lagringskonto som kallas "arbetsyta" för datakonsumenter att ta med andra användbara dataprodukter.

Mer information finns i:

Delade integreringskörningar

Azure Data Factory och Azure Synapse Analytics Pipelines använder integreringskörningar (IR) för säker åtkomst till datakällor i peerkopplade eller isolerade nätverk. Delade IR:er ska distribueras till en virtuell dator (eller Azure Virtual Machine Scale Sets) i resursgruppen för delad integrationskörning.

Så här aktiverar du den delade resursgruppen:

Skapa minst en Azure Data Factory i datalandningszonens resursgrupp för delad integrering. Använd den bara för att länka den delade lokala integrationskörningen, inte för datapipelines.
Skapa och konfigurera en lokalt installerad integrationskörning på den virtuella datorn.
Associera den lokalt installerade integrationskörningen med Azure-datafabriker i dina datalandningszoner.
Använd PowerShell-skript för att regelbundet uppdatera den lokalt installerade integrationskörningen.

Notera

Distributionen beskriver en distribution av en virtuell dator med en lokalt installerad integrationskörning. Du kan associera en lokalt installerad integrationskörning med flera virtuella datorer lokalt eller i Azure. Dessa datorer kallas noder och du kan ha upp till fyra noder associerade med en lokalt installerad integrationskörning. Fördelarna med att ha flera noder är:

Högre tillgänglighet för den lokalt installerade integrationskörningen så att det inte längre är den enda felpunkten i ditt dataprogram eller i orkestreringen av molndataintegrering.
Bättre prestanda och dataflöde under dataflytt mellan lokala datatjänster och molndatatjänster. Få mer information om prestandajämförelser.

Du kan associera flera noder genom att installera den lokalt installerade integrationskörningsprogramvaran från Download Center. Registrera den med någon av de autentiseringsnycklar som du har hämtat från cmdleten New-AzDataFactoryV2IntegrationRuntimeKey, enligt beskrivningen i tutorialen, sedan.

Mer information finns i Azure Data Factory Hög tillgänglighet och skalbarhet.

Viktig

Distribuera delade integrationskörningar så nära datakällan som möjligt. Du kan distribuera integreringskörningarna i en datalandningszon, till moln från tredje part eller i ett privat moln förutsatt att den virtuella datorn har anslutning till de datakällor som krävs.

Ledning

CI/CD-agenter körs på virtuella datorer och hjälper till med distributionen av artefakter från källkodsförrådet, inklusive dataapplikationer och ändringar i datalandningszonen.

Mer information finns i Azure Pipeline-agenter.

Extern lagring

Partnerdatautgivare måste landa data på din plattform så att dina dataprogramteam kan hämta dem till sina datasjöar. Du kan också ha interna eller externa datakällor som inte har stöd för de anslutnings- eller autentiseringskrav som tillämpas i resten av datalandningszonerna. Att använda ett separat lagringskonto är den rekommenderade metoden för att ta emot data, sedan en delad integrationskörning eller liknande inmatningsprocess för att föra in dem i din bearbetningspipeline. Som du ser i följande diagram kan du etablera bloblager för dessa användningsfall i resursgruppen för uppladdningslagring.

Dataanvändningsteamen efterfrågar lagringsblobbarna. Dessa begäranden godkänns av datalandningszonens driftteam. Data ska tas bort från dess källlagringsblob när de har matats in i rådatalagringen.

Viktig

Eftersom Azure Storage-blobar etableras på en efter behov bör du först distribuera en tom resursgrupp för lagringstjänster i varje datalandningszon.

Dataintag

Den här resursgruppen är valfri och hindrar dig inte från att distribuera din landningszon. Det gäller om du har, eller utvecklar, en dataagnostisk inmatningsmotor som automatiskt matar in data baserat på registrerade metadata, inklusive anslutningssträngar, sökvägar för dataöverföring och inmatningsscheman.

Inmatnings- och bearbetningsresursgruppen har viktiga tjänster för den här typen av ramverk.

Distribuera en Azure SQL Database-instans för att lagra metadata som används av Azure Data Factory. Etablera ett Azure Key Vault för att lagra hemligheter som rör automatiserade inmatningstjänster. Dessa hemligheter kan vara:

Autentiseringsuppgifter för Azure Data Factory-metaarkiv
Tjänsthuvudets autentiseringsuppgifter för din automatiserade inmatningsprocess

För mer information, se Hur automatiserade inmatningsramverk stöder analys på molnskala i Azure.

Tjänster som ingår i den här resursgruppen omfattar:

Tjänst	Krävs	Riktlinjer
Azure Data Factory	Ja	Azure Data Factory är din orkestreringsmotor för dataagnostisk inmatning.
Azure SQL DB	Ja	Azure SQL DB är metaarkivet för Azure Data Factory.
Event Hubs eller IoT Hub	Valfri	Event Hubs eller IoT Hub kan tillhandahålla direktuppspelning i realtid till Event Hubs, samt batch- och streamingbehandling via en Databricks-arbetsyta.
Azure Databricks	Valfri	Du kan distribuera Azure Databricks eller Azure Synapse Spark för användning med din dataagnostiska inmatningsmotor.
Azure Synapse	Valfri	Du kan distribuera Azure Databricks eller Azure Synapse Spark för användning tillsammans med den dataagnostiska inmatningsmotorn.

Delade applikationer

Den här valfria resursgruppen används när det finns ett behov av att ha en uppsättning delade tjänster tillgängliga för alla team som skapar dataprogram i den här datalandningszonen. Exempel på användningsområden är:

En Azure Databricks-arbetsyta som används som ett delat metaarkiv för alla andra Databricks-arbetsytor som skapats i samma datalandningszon (eller region)
En delad Azure Synapse Analytics-instans med serverlösa SQL-pooler för att göra det möjligt för användare att köra frågor mot isolerade lagringskonton.

Notis

Azure Databricks använder Unity Catalog för att styra åtkomst och synlighet till metaarkiv på Databricks-arbetsytor. Unity Catalog är aktiverat på klientorganisationsnivå, men metaarkiv är anpassade till Azure-regioner. I praktiken innebär det att alla Unity Catalog-aktiverade Databricks-arbetsytor i en viss Azure-region måste registrera sig i samma metaarkiv. Mer information finns i bästa praxis för Unity Catalog.

Följ metodtipsen för analys i molnskala för att integrera Azure Databricks:

Dataapplikation

Varje datalandningszon kan ha flera dataprogram. Du kan skapa dessa program genom att mata in data från olika källor. Du kan också skapa dataprogram från andra dataprogram inom samma datalandningszon eller från andra datalandningszoner. Skapande av dataprogram är föremål för godkännande av dataförvaltare.

Resursgrupp för dataprogram

Din dataprogramresursgrupp innehåller alla tjänster som krävs för att göra dataprogrammet. Till exempel krävs en Azure Database för MySQL, som används av ett visualiseringsverktyg. Data måste matas in och transformeras innan de hamnar i mySQL-databasen. I det här fallet kan du distribuera Azure Database for MySQL och en Azure Data Factory till dataprogramresursgruppen.

Tips

Om du väljer att inte implementera en dataagnostisk motor för att mata in en gång från driftkällor, eller om komplexa anslutningar inte underlättas i din dataagnostiska motor, skapar du ett källjusterat dataprogram. Mer information finns i Dataapplikationer (källanpassade).

Mer information om hur du integrerar dataprodukter finns i molnskaliga analysprogram i Azure.

Rapportering och visualisering

Du kan använda visualiserings- och rapporteringsverktyg i Infrastrukturarbetsytor, som har många likheter med Power BI-arbetsytor, utan att behöva distribuera unika resurser i din datalandningszon. Du kan inkludera en resursgrupp för att distribuera Fabric-kapacitet, virtuella datorer för datagatewayer eller andra nödvändiga datatjänster för att leverera ditt dataprogram till slutanvändaren.

Nästa steg

analysdataprodukter i molnskala i Azure

Dela via

Datalandningszoner

Arkitektur för datalandningszon

Plattformstjänster

Nätverkande

Säkerhet och övervakning

Kärntjänster

Lagring

Delade integreringskörningar

Ledning

Extern lagring

Dataintag

Delade applikationer

Dataapplikation

Resursgrupp för dataprogram

Rapportering och visualisering

Nästa steg

Feedback

Ytterligare resurser