Landningszon för datahantering
Landningszonen för datahantering är en hanteringsfunktion som är central för analys i molnskala. Den ansvarar för styrningen av din analysplattform.
Landningszonen för datahantering är en separat prenumeration som har samma standardtjänster för Azure-landningszoner. Det möjliggör datastyrning av dina data via genomsökningsprogram, som ansluter till dina datasjöar och flerspråklig lagring i dina datalagringszoner. Peering för virtuella nätverk ansluter din landningszon för datahantering till dina datalandningszoner och din anslutningsprenumeration.
Den här arkitekturen är en startpunkt och du kan ändra den så att den passar dina specifika affärs- och tekniska krav när du planerar implementeringen av landningszonen för datahantering.
Kommentar
Polyglot beständighet är en lagringsterm som beskriver valet av olika datalagringstekniker för att stödja olika datatyper och deras lagringsbehov. I grund och botten är polyglotpersistence konceptet att ett program kan använda mer än en kärndatabas eller lagringsteknik.
Viktigt!
Landningszonen för datahantering måste distribueras som en separat prenumeration under en hanteringsgrupp med lämplig styrning. Du kan sedan styra styrningen i hela organisationen. Acceleratorn i Azure-landningszonen visar hur du bör närma dig Azure-landningszoner.
Dataförvaltning
Cloud Scale Analytics föreslår att du använder Microsoft Purview. Alternativt kan Microsoft Partner-lösningar distribueras för att hantera specifika datastyrningsfunktioner. Viktiga funktioner att tänka på i din arkitektur är en global datakatalog, hantering av huvuddata, datadelning och kontrakt, API-katalog, datakvalitetshantering och en lagringsplats för datamodellering.
Microsofts partnerprodukter för datastyrning som behöver distribueras i en prenumeration ska distribueras till resursgruppen Datastyrning i landningszonen för datahantering.
Data Catalog
Datakatalogen registrerar och underhåller datainformationen på en central plats och gör den tillgänglig för organisationen. Det säkerställer att företag undviker duplicerade dataprodukter som orsakas av redundant datainmatning av olika projektteam. Vi rekommenderar att du skapar en datakatalogtjänst för att definiera metadata för de dataprodukter som lagras i datalandningszonerna.
Analys i molnskala är beroende av Microsoft Purview för att registrera företagsdatakällor, klassificera dem, säkerställa datakvalitet och erbjuda säker åtkomst med självbetjäning.
Microsoft Purview är en klientbaserad tjänst och kan kommunicera med varje datalandningszon genom att skapa ett hanterat virtuellt nätverk som distribueras till regionen för dina datalandningszoner. Du kan distribuera Azure Managed Virtual Network Integration Runtimes (IR) i Microsoft Purview Managed Virtual Networks i alla tillgängliga Microsoft Purview-regioner. Därifrån kan IR för det hanterade virtuella nätverket använda privata slutpunkter för att på ett säkert sätt ansluta till och genomsöka de datakällor som stöds. Mer information finns i Använda hanterat virtuellt nätverk med ditt Microsoft Purview-konto. Genom att skapa en hanterad virtuell nätverks-IR i hanterat virtuellt nätverk ser du till att dataintegreringsprocessen är isolerad och säker.
När du använder Azure Databricks rekommenderar vi att du använder Azure Databricks Unity Catalog utöver Microsoft Purview. Azure Databricks Unity Catalog tillhandahåller centraliserade funktioner för åtkomstkontroll, granskning, ursprung och dataidentifiering i Databricks-arbetsytor. För bästa praxis för att konfigurera Unity Catalog, se Unity Catalog.
Kommentar
Även om den här dokumentationen främst fokuserar på att använda Microsoft Purview för styrning, kan företag ha investerat i andra produkter, till exempel Alation, Okera eller Collibra. De här lösningarna är prenumerationsbaserade och vi rekommenderar att du distribuerar dem till landningszonen för datahantering. Tänk på att viss anpassad integrering kan krävas.
Hantering av huvuddata
Hanteringskontrollen för huvuddata finns i landningszonen för datahantering. Hantering av huvuddata i datanät innehåller specifika överväganden som du bör ta upp för datanät.
Många huvudlösningar för datahantering integreras fullständigt med Microsoft Entra-ID. Med den här integreringen kan du skydda dina data och tillhandahålla olika vyer för olika användargrupper.
Mer information finns i Huvuddatahanteringssystem.
Datadelning och kontrakt
Analys i molnskala använder Microsoft Entra-berättigandehantering eller Microsoft Purview-principer för att styra åtkomsten till datadelning. Trots detta kanske du fortfarande behöver en lagringsplats för delning och kontrakt. Den här lagringsplatsen är en organisationsfunktion och bör finnas i landningszonen för datahantering.
Dina kontrakt bör ge information om dataverifiering, modeller och säkerhetsprinciper.
Mer information finns i Data-kontrakt.
API-katalog
Dina dataprogramteam skapar olika API:er för sina dataprogram. Dessa API:er kan vara svåra att identifiera i hela organisationen. Att placera en API-katalog i landningszonen för datahantering kan lösa det här problemet.
En API-katalog kan hjälpa dig att standardisera din dokumentation och erbjuder en plats för internt samarbete om API:er. Det kan också driva förbruknings-, publicerings- och styrningskontroller i hela organisationen.
Hantering av datakvalitet
Fortsätt med din aktuella lösning.
Hantera datakvalitet så nära datakällan som möjligt för att förhindra att kvalitetsproblem sprids över dina analys- och AI-system. Genom att integrera kvalitetsmått och validering i dina dataprocesser justerar du kvalitetshanteringen med de team som är mest bekanta med data, vilket säkerställer en djupare förståelse och bättre hantering av datatillgångarna.
Data härkomst ger också förtroende för datakvalitet och du bör tillhandahålla den för alla dataprodukter.
Mer information om datakvalitetshantering finns i Datakvalitet.
Lagringsplats för datamodellering
Du bör samla in och lagra entitetsrelationsmodeller på en central plats i landningszonen för datahantering, vilket ger datakonsumenterna en enda plats för att hitta konceptuella diagram.
Många kunder använder ER Studio och OrbusInfinity för att modellera sina dataprodukter före inmatning.
Servicelager
Din organisation kan välja att skapa många automatiseringstjänster för att utöka analysfunktionerna i molnskala. Dessa automatiseringstjänster skapar lösningar för överensstämmelse och registrering för ditt analystillstånd.
Om du bestämmer dig för att skapa dessa automationstjänster bör du ha ett användargränssnitt som fungerar som både en datamarknadsplats och en driftkonsol. Det här gränssnittet bör förlita sig på ett underliggande metadatalager, till exempel metadatastandarder.
Din datamarknad eller driftkonsol anropar en mellannivå av mikrotjänster för att underlätta registrering av metadata, säkerhetsetablering, datalivscykel och observerbarhet.
Du kan etablera tjänstlager resursgrupp som värd för ditt metadatalager.
Viktigt!
Ingen av dessa automationstjänster är produkter, och de illustrerar inte något översiktsobjekt. De visas för att hjälpa dig att överväga vilka objekt som du kanske vill automatisera.
Tjänst | Tjänstomfång |
---|---|
Etablering av datalandningszon | Den här tjänsten skapar en ny datalandningszon. Det är osannolikt att den kommer att ha hög användning, men den ingår för att fullborda en heltäckande onboardinglösning. Mer information finns i Etablera analys i molnskala |
Registrering av dataprodukter | Den här tjänsten skapar och ändrar resursgrupper som gäller för en registrerad klientorganisation. Den innehåller också funktioner för att uppgradera och nedgradera SKU:er och för att aktivera och inaktivera resursgrupper för alla registrerade klientorganisationer eller tjänster. Det skapar en ny datalandningszon DevOps. Mer information finns i Etablera analys i molnskala |
Dataagnostisk inmatning | Den här mikrotjänsten skapar nya datakällor för inmatning till dina datalandningszoner genom att kommunicera med ett Azure Data Factory SQL Database-metaarkiv i varje datalandningszon. Mer information finns i How automated ingestion frameworks support cloud-scale analytics in Azure |
Metadata | Den här tjänsten exponerar och skapar metadata för plattformen. Mer information finns i Metadatastandarder |
Åtkomstetablering | Den här tjänsten skapar åtkomstpaket, åtkomstprinciper och processer för godkännande av tillgångsåtkomst (manuell eller automatisk) med HJÄLP av SPN/UPN. Det kan också exponera ett API för att tillhandahålla en lista över prenumerationsbegäranden (tillgångar) som användare har skickat under de senaste 90 dagarna. Mer information finns i Dataåtkomsthantering |
Datalivscykel | Den här tjänsten ansvarar för att underhålla din datalivscykel baserat på metadata. Det här underhållet kan omfatta flytt av data till kall lagring och borttagning av poster som inte längre behöver behållas. Mer information finns i Datalivscykelhantering |
Registrering av datadomäner | GÄLLER ENDAST FÖR DATA MESH. Den här tjänsten samlar in metadata som rör nya domäner och registrerar de nya domänerna efter behov. Den kan också skapa, uppdatera, aktivera och inaktivera alla domäner eller tjänstrader som du kan bygga in i en mikrotjänst. Mer information finns i Etablera analys i molnskala |
Azure Container Registry
Din landningszon för datahantering är värd för ett Azure Container Registry. Med Azure Container Registry kan dina dataplattformsåtgärder distribuera standardcontainrar för användning i datavetenskapsprojekt som dina dataprogramteam använder.