Dela via


Datalandningszoner

Datalandningszoner är anslutna till din landningszon för datahantering via virtuellt nätverk peering eller privata slutpunkter. Varje datalandningszon anses vara en landningszon relaterad till Arkitektur för Azure-landningszoner.

Viktig

Innan du etablerar en datalandningszon kontrollerar du att din DevOps- och CI/CD-driftsmodell är på plats och att en landningszon för datahantering distribueras.

Varje datalandningszon har flera lager som möjliggör flexibilitet för tjänstdataintegreringar och dataprogram som den innehåller. Du kan distribuera en ny datalandningszon med en standarduppsättning tjänster som gör att datalandningszonen kan börja mata in och analysera data.

En typisk Azure-prenumeration som är associerad med en datalandningszon har följande struktur:

Lager Krävs Resursgrupper
Plattformens tjänstelager Ja
Core-tjänster Ja
dataapplikation Valfri
Rapportering och visualisering Valfri

Not

Även om Core Services-lagret är markerat som obligatoriskt kan inte alla resursgrupper och tjänster som ingår i den här artikeln vara nödvändiga för din datalandningszon.

Arkitektur för datalandningszon

Arkitekturen för datalandningszoner illustrerar lagren, deras resursgrupper och de tjänster som varje resursgrupp innehåller. Arkitekturen ger en översikt över alla grupper och roller som är associerade med din datalandningszon och omfattningen av deras åtkomst till dina kontroll- och dataplan. Arkitekturen visar också hur varje lager överensstämmer med ansvarsområden för driftsmodellen.

diagram över datalandningszonens arkitektur.

Tips

Innan du distribuerar en datalandningszon måste du överväga antalet inledande datalandningszoner som du vill distribuera.

Plattformstjänster

Plattformstjänstlagret innehåller tjänster som krävs för att möjliggöra anslutning och observerbarhet till din datalandningszon inom ramen för analys i molnskala. I följande tabell visas de rekommenderade resursgrupperna.

Resursgrupp Krävs Beskrivning
network-rg Ja Nätverkande
security-rg Ja Säkerhet och övervakning

Nätverkande

Nätverksresursgruppen innehåller anslutningstjänster, inklusive Virtuella Azure-nätverk, Nätverkssäkerhetsgrupper (NSG) och routningstabeller. Alla dessa tjänster distribueras till en enda resursgrupp.

Det virtuella nätverket i din datalandningszon är automatiskt sammankopplat med det virtuella nätverket i din datahanteringslandningszon och det virtuella nätverket i din anslutningsprenumeration .

Säkerhet och övervakning

Resursgruppen för säkerhet och övervakning innehåller Azure Monitor- och Microsoft Defender för molnet för att samla in tjänsttelemetri, definiera övervakningskriterier och aviseringar samt tillämpa principer och genomsökning på tjänster.

Kärntjänster

Kärntjänstlagret innehåller grundläggande tjänster som krävs för att aktivera din datalandningszon inom ramen för analys i molnskala. I följande tabell visas de resursgrupper som tillhandahåller standardpaketet med tillgängliga tjänster i varje datalandningszon som du distribuerar.

Resursgrupp Krävs Beskrivning
storage-rg Ja Data lake-tjänster
runtimes-rg Ja Delade integreringskörningar
mgmt-rg Ja CI/CD-agenter
external-data-rg Ja Extern datalagring
data-ingestion-rg Valfri Delade datainmatningstjänster
shared-applications-rg Valfri Delade program (Synapse eller Databricks)

Lagring

Som du ser i diagrammet etableras tre Azure Data Lake Storage Gen2 konton i en resursgrupp för data lake-tjänster. Data som transformeras i olika steg sparas i en av datalandningszonens datasjöar. Data är tillgängliga för användning av dina analys-, datavetenskaps- och visualiseringsteam.

Datasjölager använder olika terminologi beroende på teknik och leverantör. Den här tabellen innehåller vägledning om hur du tillämpar villkor för analys i molnskala:

Analys i molnskala Delta Lake Andra termer Beskrivning
Brons Landning och överensstämmelse Inmatningstabeller
Berikad Silver Standardiseringszon Förfinade tabeller. Lagrade fullständiga entiteter, förbrukningsklara postuppsättningar från arkivhandlingssystem.
Kuraterad Guld Produktzon Funktions- eller aggregerade tabeller. Primär zon för program, team och användare att använda dataprodukter.
Utveckling -- Utvecklingszon Plats för datatekniker och forskare, som består av både en sandbox-analys och en produktutvecklingszon.

Notis

I föregående diagram har varje datalandningszon tre datasjölagringskonton. Beroende på dina krav kan du dock välja att konsolidera dina råa, berikade och kuraterade lager till ett lagringskonto och underhålla ett annat lagringskonto som kallas "arbetsyta" för datakonsumenter att ta med andra användbara dataprodukter.

Mer information finns i:

Delade integreringskörningar

Azure Data Factory och Azure Synapse Analytics Pipelines använder integreringskörningar (IR) för säker åtkomst till datakällor i peerkopplade eller isolerade nätverk. Delade IR:er ska distribueras till en virtuell dator (eller Azure Virtual Machine Scale Sets) i resursgruppen för delad integrationskörning.

Så här aktiverar du den delade resursgruppen:

Notera

Distributionen beskriver en distribution av en virtuell dator med en lokalt installerad integrationskörning. Du kan associera en lokalt installerad integrationskörning med flera virtuella datorer lokalt eller i Azure. Dessa datorer kallas noder och du kan ha upp till fyra noder associerade med en lokalt installerad integrationskörning. Fördelarna med att ha flera noder är:

  • Högre tillgänglighet för den lokalt installerade integrationskörningen så att det inte längre är den enda felpunkten i ditt dataprogram eller i orkestreringen av molndataintegrering.
  • Bättre prestanda och dataflöde under dataflytt mellan lokala datatjänster och molndatatjänster. Få mer information om prestandajämförelser.

Du kan associera flera noder genom att installera den lokalt installerade integrationskörningsprogramvaran från Download Center. Registrera den med någon av de autentiseringsnycklar som du har hämtat från cmdleten New-AzDataFactoryV2IntegrationRuntimeKey, enligt beskrivningen i tutorialen, sedan.

Mer information finns i Azure Data Factory Hög tillgänglighet och skalbarhet.

Viktig

Distribuera delade integrationskörningar så nära datakällan som möjligt. Du kan distribuera integreringskörningarna i en datalandningszon, till moln från tredje part eller i ett privat moln förutsatt att den virtuella datorn har anslutning till de datakällor som krävs.

Ledning

CI/CD-agenter körs på virtuella datorer och hjälper till med distributionen av artefakter från källkodsförrådet, inklusive dataapplikationer och ändringar i datalandningszonen.

Mer information finns i Azure Pipeline-agenter.

Extern lagring

Partnerdatautgivare måste landa data på din plattform så att dina dataprogramteam kan hämta dem till sina datasjöar. Du kan också ha interna eller externa datakällor som inte har stöd för de anslutnings- eller autentiseringskrav som tillämpas i resten av datalandningszonerna. Att använda ett separat lagringskonto är den rekommenderade metoden för att ta emot data, sedan en delad integrationskörning eller liknande inmatningsprocess för att föra in dem i din bearbetningspipeline. Som du ser i följande diagram kan du etablera bloblager för dessa användningsfall i resursgruppen för uppladdningslagring.

Dataanvändningsteamen efterfrågar lagringsblobbarna. Dessa begäranden godkänns av datalandningszonens driftteam. Data ska tas bort från dess källlagringsblob när de har matats in i rådatalagringen.

Viktig

Eftersom Azure Storage-blobar etableras på en efter behov bör du först distribuera en tom resursgrupp för lagringstjänster i varje datalandningszon.

Dataintag

Den här resursgruppen är valfri och hindrar dig inte från att distribuera din landningszon. Det gäller om du har, eller utvecklar, en dataagnostisk inmatningsmotor som automatiskt matar in data baserat på registrerade metadata, inklusive anslutningssträngar, sökvägar för dataöverföring och inmatningsscheman.

Inmatnings- och bearbetningsresursgruppen har viktiga tjänster för den här typen av ramverk.

Distribuera en Azure SQL Database-instans för att lagra metadata som används av Azure Data Factory. Etablera ett Azure Key Vault för att lagra hemligheter som rör automatiserade inmatningstjänster. Dessa hemligheter kan vara:

  • Autentiseringsuppgifter för Azure Data Factory-metaarkiv
  • Tjänsthuvudets autentiseringsuppgifter för din automatiserade inmatningsprocess

För mer information, se Hur automatiserade inmatningsramverk stöder analys på molnskala i Azure.

Tjänster som ingår i den här resursgruppen omfattar:

Tjänst Krävs Riktlinjer
Azure Data Factory Ja Azure Data Factory är din orkestreringsmotor för dataagnostisk inmatning.
Azure SQL DB Ja Azure SQL DB är metaarkivet för Azure Data Factory.
Event Hubs eller IoT Hub Valfri Event Hubs eller IoT Hub kan tillhandahålla direktuppspelning i realtid till Event Hubs, samt batch- och streamingbehandling via en Databricks-arbetsyta.
Azure Databricks Valfri Du kan distribuera Azure Databricks eller Azure Synapse Spark för användning med din dataagnostiska inmatningsmotor.
Azure Synapse Valfri Du kan distribuera Azure Databricks eller Azure Synapse Spark för användning tillsammans med den dataagnostiska inmatningsmotorn.

Delade applikationer

Den här valfria resursgruppen används när det finns ett behov av att ha en uppsättning delade tjänster tillgängliga för alla team som skapar dataprogram i den här datalandningszonen. Exempel på användningsområden är:

  • En Azure Databricks-arbetsyta som används som ett delat metaarkiv för alla andra Databricks-arbetsytor som skapats i samma datalandningszon (eller region)
  • En delad Azure Synapse Analytics-instans med serverlösa SQL-pooler för att göra det möjligt för användare att köra frågor mot isolerade lagringskonton.

Notis

Azure Databricks använder Unity Catalog för att styra åtkomst och synlighet till metaarkiv på Databricks-arbetsytor. Unity Catalog är aktiverat på klientorganisationsnivå, men metaarkiv är anpassade till Azure-regioner. I praktiken innebär det att alla Unity Catalog-aktiverade Databricks-arbetsytor i en viss Azure-region måste registrera sig i samma metaarkiv. Mer information finns i bästa praxis för Unity Catalog.

Följ metodtipsen för analys i molnskala för att integrera Azure Databricks:

Dataapplikation

Varje datalandningszon kan ha flera dataprogram. Du kan skapa dessa program genom att mata in data från olika källor. Du kan också skapa dataprogram från andra dataprogram inom samma datalandningszon eller från andra datalandningszoner. Skapande av dataprogram är föremål för godkännande av dataförvaltare.

Resursgrupp för dataprogram

Din dataprogramresursgrupp innehåller alla tjänster som krävs för att göra dataprogrammet. Till exempel krävs en Azure Database för MySQL, som används av ett visualiseringsverktyg. Data måste matas in och transformeras innan de hamnar i mySQL-databasen. I det här fallet kan du distribuera Azure Database for MySQL och en Azure Data Factory till dataprogramresursgruppen.

Tips

Om du väljer att inte implementera en dataagnostisk motor för att mata in en gång från driftkällor, eller om komplexa anslutningar inte underlättas i din dataagnostiska motor, skapar du ett källjusterat dataprogram. Mer information finns i Dataapplikationer (källanpassade).

Mer information om hur du integrerar dataprodukter finns i molnskaliga analysprogram i Azure.

Rapportering och visualisering

Du kan använda visualiserings- och rapporteringsverktyg i Infrastrukturarbetsytor, som har många likheter med Power BI-arbetsytor, utan att behöva distribuera unika resurser i din datalandningszon. Du kan inkludera en resursgrupp för att distribuera Fabric-kapacitet, virtuella datorer för datagatewayer eller andra nödvändiga datatjänster för att leverera ditt dataprogram till slutanvändaren.

Nästa steg