Datalandningszoner
Datalandningszoner är anslutna till din landningszon för datahantering via virtuellt nätverk peering eller privata slutpunkter. Varje datalandningszon anses vara en landningszon relaterad till Arkitektur för Azure-landningszoner.
Viktig
Innan du etablerar en datalandningszon kontrollerar du att din DevOps- och CI/CD-driftsmodell är på plats och att en landningszon för datahantering distribueras.
Varje datalandningszon har flera lager som möjliggör flexibilitet för tjänstdataintegreringar och dataprogram som den innehåller. Du kan distribuera en ny datalandningszon med en standarduppsättning tjänster som gör att datalandningszonen kan börja mata in och analysera data.
En typisk Azure-prenumeration som är associerad med en datalandningszon har följande struktur:
Lager | Krävs | Resursgrupper |
---|---|---|
Plattformens tjänstelager | Ja | |
Core-tjänster | Ja | |
dataapplikation | Valfri |
|
Rapportering och visualisering | Valfri |
Not
Även om Core Services-lagret är markerat som obligatoriskt kan inte alla resursgrupper och tjänster som ingår i den här artikeln vara nödvändiga för din datalandningszon.
Arkitektur för datalandningszon
Arkitekturen för datalandningszoner illustrerar lagren, deras resursgrupper och de tjänster som varje resursgrupp innehåller. Arkitekturen ger en översikt över alla grupper och roller som är associerade med din datalandningszon och omfattningen av deras åtkomst till dina kontroll- och dataplan. Arkitekturen visar också hur varje lager överensstämmer med ansvarsområden för driftsmodellen.
Tips
Innan du distribuerar en datalandningszon måste du överväga antalet inledande datalandningszoner som du vill distribuera.
Plattformstjänster
Plattformstjänstlagret innehåller tjänster som krävs för att möjliggöra anslutning och observerbarhet till din datalandningszon inom ramen för analys i molnskala. I följande tabell visas de rekommenderade resursgrupperna.
Resursgrupp | Krävs | Beskrivning |
---|---|---|
network-rg |
Ja | Nätverkande |
security-rg |
Ja | Säkerhet och övervakning |
Nätverkande
Nätverksresursgruppen innehåller anslutningstjänster, inklusive Virtuella Azure-nätverk, Nätverkssäkerhetsgrupper (NSG) och routningstabeller. Alla dessa tjänster distribueras till en enda resursgrupp.
Det virtuella nätverket i din datalandningszon är automatiskt sammankopplat med det virtuella nätverket i din datahanteringslandningszon och det virtuella nätverket i din anslutningsprenumeration .
Säkerhet och övervakning
Resursgruppen för säkerhet och övervakning innehåller Azure Monitor- och Microsoft Defender för molnet för att samla in tjänsttelemetri, definiera övervakningskriterier och aviseringar samt tillämpa principer och genomsökning på tjänster.
Kärntjänster
Kärntjänstlagret innehåller grundläggande tjänster som krävs för att aktivera din datalandningszon inom ramen för analys i molnskala. I följande tabell visas de resursgrupper som tillhandahåller standardpaketet med tillgängliga tjänster i varje datalandningszon som du distribuerar.
Resursgrupp | Krävs | Beskrivning |
---|---|---|
storage-rg |
Ja | Data lake-tjänster |
runtimes-rg |
Ja | Delade integreringskörningar |
mgmt-rg |
Ja | CI/CD-agenter |
external-data-rg |
Ja | Extern datalagring |
data-ingestion-rg |
Valfri | Delade datainmatningstjänster |
shared-applications-rg |
Valfri | Delade program (Synapse eller Databricks) |
Lagring
Som du ser i diagrammet etableras tre Azure Data Lake Storage Gen2 konton i en resursgrupp för data lake-tjänster. Data som transformeras i olika steg sparas i en av datalandningszonens datasjöar. Data är tillgängliga för användning av dina analys-, datavetenskaps- och visualiseringsteam.
Datasjölager använder olika terminologi beroende på teknik och leverantör. Den här tabellen innehåller vägledning om hur du tillämpar villkor för analys i molnskala:
Analys i molnskala | Delta Lake | Andra termer | Beskrivning |
---|---|---|---|
Rå | Brons | Landning och överensstämmelse | Inmatningstabeller |
Berikad | Silver | Standardiseringszon | Förfinade tabeller. Lagrade fullständiga entiteter, förbrukningsklara postuppsättningar från arkivhandlingssystem. |
Kuraterad | Guld | Produktzon | Funktions- eller aggregerade tabeller. Primär zon för program, team och användare att använda dataprodukter. |
Utveckling | -- | Utvecklingszon | Plats för datatekniker och forskare, som består av både en sandbox-analys och en produktutvecklingszon. |
Notis
I föregående diagram har varje datalandningszon tre datasjölagringskonton. Beroende på dina krav kan du dock välja att konsolidera dina råa, berikade och kuraterade lager till ett lagringskonto och underhålla ett annat lagringskonto som kallas "arbetsyta" för datakonsumenter att ta med andra användbara dataprodukter.
Mer information finns i:
- Översikt över Azure Data Lake Storage för analys i molnskala
- Datastandardisering
- Etablera Azure Data Lake Storage Gen2-konton för varje datalandningszon
- Viktiga överväganden för Azure Data Lake Storage
- Åtkomstkontroll och datasjökonfigurationer i Azure Data Lake Storage
Delade integreringskörningar
Azure Data Factory och Azure Synapse Analytics Pipelines använder integreringskörningar (IR) för säker åtkomst till datakällor i peerkopplade eller isolerade nätverk. Delade IR:er ska distribueras till en virtuell dator (eller Azure Virtual Machine Scale Sets) i resursgruppen för delad integrationskörning.
Så här aktiverar du den delade resursgruppen:
- Skapa minst en Azure Data Factory i datalandningszonens resursgrupp för delad integrering. Använd den bara för att länka den delade lokala integrationskörningen, inte för datapipelines.
- Skapa och konfigurera en lokalt installerad integrationskörning på den virtuella datorn.
- Associera den lokalt installerade integrationskörningen med Azure-datafabriker i dina datalandningszoner.
- Använd PowerShell-skript för att regelbundet uppdatera den lokalt installerade integrationskörningen.
Notera
Distributionen beskriver en distribution av en virtuell dator med en lokalt installerad integrationskörning. Du kan associera en lokalt installerad integrationskörning med flera virtuella datorer lokalt eller i Azure. Dessa datorer kallas noder och du kan ha upp till fyra noder associerade med en lokalt installerad integrationskörning. Fördelarna med att ha flera noder är:
- Högre tillgänglighet för den lokalt installerade integrationskörningen så att det inte längre är den enda felpunkten i ditt dataprogram eller i orkestreringen av molndataintegrering.
- Bättre prestanda och dataflöde under dataflytt mellan lokala datatjänster och molndatatjänster. Få mer information om prestandajämförelser.
Du kan associera flera noder genom att installera den lokalt installerade integrationskörningsprogramvaran från Download Center. Registrera den med någon av de autentiseringsnycklar som du har hämtat från cmdleten New-AzDataFactoryV2IntegrationRuntimeKey, enligt beskrivningen i tutorialen, sedan.
Mer information finns i Azure Data Factory Hög tillgänglighet och skalbarhet.
Viktig
Distribuera delade integrationskörningar så nära datakällan som möjligt. Du kan distribuera integreringskörningarna i en datalandningszon, till moln från tredje part eller i ett privat moln förutsatt att den virtuella datorn har anslutning till de datakällor som krävs.
Ledning
CI/CD-agenter körs på virtuella datorer och hjälper till med distributionen av artefakter från källkodsförrådet, inklusive dataapplikationer och ändringar i datalandningszonen.
Mer information finns i Azure Pipeline-agenter.
Extern lagring
Partnerdatautgivare måste landa data på din plattform så att dina dataprogramteam kan hämta dem till sina datasjöar. Du kan också ha interna eller externa datakällor som inte har stöd för de anslutnings- eller autentiseringskrav som tillämpas i resten av datalandningszonerna. Att använda ett separat lagringskonto är den rekommenderade metoden för att ta emot data, sedan en delad integrationskörning eller liknande inmatningsprocess för att föra in dem i din bearbetningspipeline. Som du ser i följande diagram kan du etablera bloblager för dessa användningsfall i resursgruppen för uppladdningslagring.
Dataanvändningsteamen efterfrågar lagringsblobbarna. Dessa begäranden godkänns av datalandningszonens driftteam. Data ska tas bort från dess källlagringsblob när de har matats in i rådatalagringen.
Viktig
Eftersom Azure Storage-blobar etableras på en efter behov bör du först distribuera en tom resursgrupp för lagringstjänster i varje datalandningszon.
Dataintag
Den här resursgruppen är valfri och hindrar dig inte från att distribuera din landningszon. Det gäller om du har, eller utvecklar, en dataagnostisk inmatningsmotor som automatiskt matar in data baserat på registrerade metadata, inklusive anslutningssträngar, sökvägar för dataöverföring och inmatningsscheman.
Inmatnings- och bearbetningsresursgruppen har viktiga tjänster för den här typen av ramverk.
Distribuera en Azure SQL Database-instans för att lagra metadata som används av Azure Data Factory. Etablera ett Azure Key Vault för att lagra hemligheter som rör automatiserade inmatningstjänster. Dessa hemligheter kan vara:
- Autentiseringsuppgifter för Azure Data Factory-metaarkiv
- Tjänsthuvudets autentiseringsuppgifter för din automatiserade inmatningsprocess
För mer information, se Hur automatiserade inmatningsramverk stöder analys på molnskala i Azure.
Tjänster som ingår i den här resursgruppen omfattar:
Tjänst | Krävs | Riktlinjer |
---|---|---|
Azure Data Factory | Ja | Azure Data Factory är din orkestreringsmotor för dataagnostisk inmatning. |
Azure SQL DB | Ja | Azure SQL DB är metaarkivet för Azure Data Factory. |
Event Hubs eller IoT Hub | Valfri | Event Hubs eller IoT Hub kan tillhandahålla direktuppspelning i realtid till Event Hubs, samt batch- och streamingbehandling via en Databricks-arbetsyta. |
Azure Databricks | Valfri | Du kan distribuera Azure Databricks eller Azure Synapse Spark för användning med din dataagnostiska inmatningsmotor. |
Azure Synapse | Valfri | Du kan distribuera Azure Databricks eller Azure Synapse Spark för användning tillsammans med den dataagnostiska inmatningsmotorn. |
Delade applikationer
Den här valfria resursgruppen används när det finns ett behov av att ha en uppsättning delade tjänster tillgängliga för alla team som skapar dataprogram i den här datalandningszonen. Exempel på användningsområden är:
- En Azure Databricks-arbetsyta som används som ett delat metaarkiv för alla andra Databricks-arbetsytor som skapats i samma datalandningszon (eller region)
- En delad Azure Synapse Analytics-instans med serverlösa SQL-pooler för att göra det möjligt för användare att köra frågor mot isolerade lagringskonton.
Notis
Azure Databricks använder Unity Catalog för att styra åtkomst och synlighet till metaarkiv på Databricks-arbetsytor. Unity Catalog är aktiverat på klientorganisationsnivå, men metaarkiv är anpassade till Azure-regioner. I praktiken innebär det att alla Unity Catalog-aktiverade Databricks-arbetsytor i en viss Azure-region måste registrera sig i samma metaarkiv. Mer information finns i bästa praxis för Unity Catalog.
Följ metodtipsen för analys i molnskala för att integrera Azure Databricks:
Dataapplikation
Varje datalandningszon kan ha flera dataprogram. Du kan skapa dessa program genom att mata in data från olika källor. Du kan också skapa dataprogram från andra dataprogram inom samma datalandningszon eller från andra datalandningszoner. Skapande av dataprogram är föremål för godkännande av dataförvaltare.
Resursgrupp för dataprogram
Din dataprogramresursgrupp innehåller alla tjänster som krävs för att göra dataprogrammet. Till exempel krävs en Azure Database för MySQL, som används av ett visualiseringsverktyg. Data måste matas in och transformeras innan de hamnar i mySQL-databasen. I det här fallet kan du distribuera Azure Database for MySQL och en Azure Data Factory till dataprogramresursgruppen.
Tips
Om du väljer att inte implementera en dataagnostisk motor för att mata in en gång från driftkällor, eller om komplexa anslutningar inte underlättas i din dataagnostiska motor, skapar du ett källjusterat dataprogram. Mer information finns i Dataapplikationer (källanpassade).
Mer information om hur du integrerar dataprodukter finns i molnskaliga analysprogram i Azure.
Rapportering och visualisering
Du kan använda visualiserings- och rapporteringsverktyg i Infrastrukturarbetsytor, som har många likheter med Power BI-arbetsytor, utan att behöva distribuera unika resurser i din datalandningszon. Du kan inkludera en resursgrupp för att distribuera Fabric-kapacitet, virtuella datorer för datagatewayer eller andra nödvändiga datatjänster för att leverera ditt dataprogram till slutanvändaren.